python爬虫
文章平均质量分 51
karmalk
不会造轮子的话,那就搬砖吧
即使是一个coder的命,那也要有成为programer的梦想。
展开
-
【Python爬虫第二弹】基于爬虫爬取豆瓣书籍的书籍信息查询
爬虫学了有半个月的时间了,其实这半个月真正学到的东西也不过就是requsets和beautifulsoup的用法,惭愧,收获不太大,还没有接触scrapy框架,但是光这个beautifulsoup可以完成的事情已经很多了,然后简单的使用了pandas可以将爬取到的数据整理一下,还没到可以分析的地步 由于先前无知,没想到爬取速度过快会导致被封ip,所以在某一天爬豆瓣的时候什么信息都爬不出来了,然后就原创 2017-08-01 13:52:57 · 1383 阅读 · 0 评论 -
【python爬虫小实战】python3.x用requests和bs4实现有道翻译(中英文)
一直用的是python3.x版本的,刚开始学爬虫的时候学长给了我个爬有道翻译的小程序,实现中英文翻译,由于是用urllib库的,当时也是刚接触python,所以一脸懵逼,现在学了一个月了,回头再看了一下,感觉很时间单,于是就用requests库和bs4,加上json网页解析,也写 了个翻译小程序,(感觉比用urllib代码要少的多,)其实开始requests.get的方法参数很懵逼,百度了一下,总算原创 2017-08-07 00:00:24 · 3025 阅读 · 0 评论 -
[python爬虫小实战2]根据用户输入关键词爬取今日头条图集,并批量下载图片
这算是比较贴近于实际生活的爬虫了,根据用户输入的关键字批量下载今日头条相关图集图片,,核心用到了urllib.request.urlretrieve()这个方法,然后百度了一下进度条怎么玩,直接把代码加上去了,没毛病,感觉代码有些复杂,其实理论上一层网页可以将所需额图片都爬取下来,但是当时担心出现问题,就多添加了一层网页url分析,主要用的还是json分析,这些都相对简单的,关键一层一层网页间的ur原创 2017-08-07 14:09:16 · 4644 阅读 · 0 评论 -
python爬虫模拟登陆知乎网
自从暑假学了大概一个月左右的爬虫,开学之后就没怎么搞爬虫了,当时也就学到scrapy框架就放下了,大致了解了一下框架,不是太理解,但是在这之前本人的爬虫水平也仅仅局限于爬取简单页面,爬取动态页面也稍微了解下,但是一直没有学模拟登陆,因为当时怎么也搞不懂模拟登陆是怎么个回事,包括保存页面cookies也不知道, 最近有重新拾起爬虫,准备将爬虫再进阶一下,于是找到了网上一些视频看到有个用beautif原创 2017-10-22 16:30:33 · 3988 阅读 · 0 评论 -
python爬虫爬取豆瓣书籍信息并生成表格
学了没多长时间python就开始接触爬虫(被一名学长带进了爬虫的坑,感谢学长的指导),看了网上的一些视频,简单的了解了python的requsts库,bs4,就可以实现一个网页的最简单的爬虫(其实就是用几行代码把某个网页的html抓取下来,生肉(滑稽)),然后当然还需要对网页的元素进行处理,提取出有效的信息,所以,发现了bs4的强大,我个人到目前一直用的是select,还没使用find_all,将来原创 2017-07-26 10:08:37 · 8918 阅读 · 1 评论 -
Python安装face_recognition人脸识别依赖库(MAC OS平台,和Ubuntu平台)
最近看了个通过人脸识别依赖库face_recognition和图像识别库Pillow对一张人物图片进行美颜 等相关操作,代码也不多三十行左右,然后冠挺有意思的,就去尝试了一下,结果在安装这个人脸识别依赖库就出现问题了 用 pip install face_recognition安装是出现了依赖问题,dlib 安装不成功,然后在知乎上找到了解决方法 三条命令brew install cma原创 2017-11-29 16:34:05 · 5008 阅读 · 2 评论 -
Python 3爬虫实现有道翻译+GUI并打包成exe文件
之前写过爬虫爬取有道翻译实现简单翻译,并且不带GUI页面,而且当时写的时候有道官网还没没有反爬虫机制,时隔几月,有道翻译的网页版有了很大声的变化,所以正好在网易云课堂上找到一个有关破解有道翻译反爬虫机制的课程,顺带加上了使用tkinter时间桌面话,并采用cx_Freeze打包成在没有预装Python环境的windows环境下可以执行的exe文件,其实现在导包成可执行的exe文件,好像py2exe原创 2018-01-23 22:45:51 · 4301 阅读 · 2 评论 -
关于No module named PyQt5.QtWebKitWidgets的解决方案
PyQt中的WebKit是一个非常强大的库,其主要作用就是可以通过此库开发一个简易的浏览器,真的很强大,这里我主要是想用这个包来讲某个网站的网页界面显示在Qt用户界面中。 在 PyQt 5.6(+) 版本中, Qt 移除了对 QtWebKitWidgets 模块的支持, 新增 QtWebEngineWidgets 作为代替, 以提供更好的和最新的 HTML, CSS 以及 JavaScript ...原创 2018-06-03 17:15:21 · 32067 阅读 · 13 评论