Crawler
mmmdotes
softness is power.
展开
-
爬虫时出现 IndexError: list index out of range 的原因
爬虫时出现 IndexError: list index out of range 的原因有两种:简单举例如下:第一种情况: index越界Alex = [1,2,3]Alex[1]2Alex[0]1Alex[2]3Alex[3]Traceback (most recent call last): File "<input>", line 1, in &...原创 2018-11-09 19:04:49 · 25326 阅读 · 0 评论 -
Ubuntu+mps-youtube for crawling video / audio
1.打开Ubuntu terminal: Ctrl + Alt +T2.安装mps-youtube $ pip install mps-youtube3.打开mps-youtube$ mpsyt4.input follow command:set search_music falseset show_video true5. search content/T...原创 2018-11-10 02:29:39 · 309 阅读 · 0 评论 -
crawlerNo.1(video,audio,image)
you-get是一个好工具。 reference:https://github.com/soimort/you-get/wiki/FAQ原创 2018-11-10 16:47:19 · 124 阅读 · 0 评论 -
UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f349' in position 64: illegal multibyt
解决办法: s.decode('gbk', ‘ignore').encode('utf-8′)reference:http://www.cnblogs.com/baiyuyang/archive/2011/10/29/2228667.html原创 2018-11-14 22:31:11 · 1532 阅读 · 0 评论 -
python实现简单爬虫功能(网站图片)
转自http://www.cnblogs.com/fnng/p/3576154.html 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实...原创 2018-11-15 00:19:00 · 410 阅读 · 0 评论 -
python3读取excel文件(xls/xlsx)
第一种方法:打开Excel文件,另存为 .csv文件即可,利用读取csv的方式第二种方法: 第一步: pip install pyexcel-xls环境:python3.6工具:pycharm2017.3 community上代码:# 读取文件# pyexcel_xls 以 OrderedDict 结构处理数据from collections import...原创 2018-11-19 22:58:30 · 15855 阅读 · 0 评论 -
CSV与List的互相转换(python实现)
环境:python3.6IDE: pycharm community 2017.31.读取CSV文件到Listdef read_CSV2List(filePath): try: file=open('C:/a.csv','r',encoding="gbk")# 以utf-8形式编码 context = file.read() # 以str形式读取 list_resul...原创 2018-11-20 01:53:05 · 5161 阅读 · 1 评论