爬虫
Python之眼
这个作者很懒,什么都没留下…
展开
-
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库;import requestsimport osfrom bs4 import BeautifulSoupimport timefrom multiprocessing import Pool定义图片存储路径; path = r'E:\爬虫\0805\\'请求头,模拟浏览器请求;在浏览器中的位置,按f12打开开发者模式;headers = { 'U...原创 2019-08-08 13:40:24 · 124 阅读 · 0 评论 -
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理,查看网站源代码路径;发现把里面的#号去掉会显示所有内容,右键打开的源代码路径:view-source:https://music.163.com/#/discover/toplist?id=3778678去掉#号后:view-source:https://music.163.com/discov...原创 2019-08-09 13:38:22 · 806 阅读 · 0 评论 -
正则爬取京东商品信息并打包成.exe可执行程序。
本文爬取内容,输入要搜索的关键字可自动爬取京东网站上相关商品的店铺名称,商品名称,价格,爬取100页(共100页)代码如下;--------------------------------------------------------------------注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料,感兴趣的+Q群:895817687--------...原创 2019-08-09 13:35:53 · 189 阅读 · 0 评论 -
Python使用request包请求网页乱码解决方法
使用requests请求网页时,返回的页面信息有时是乱码,如下代码headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}def get_all(url,key):...原创 2019-08-09 13:29:34 · 1673 阅读 · 0 评论 -
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭。。# 需要的库from lxml import etreeimport requestsfrom multiprocessing import Pool# 请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1...原创 2019-08-09 13:24:43 · 267 阅读 · 0 评论 -
使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。
# 需要的库from lxml import etreeimport requests# 请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}# 保存...原创 2019-08-09 13:20:54 · 198 阅读 · 0 评论 -
python爬虫中的ip代理设置
设置ip代理是爬虫必不可少的技巧;查看本机ip地址;打开百度,输入“ip地址”,可以看到本机的IP地址;本文使用的是goubanjia.com里面的免费ip;使用时注意要注意传输协议是http还是https,代码如下;# 用到的库import requests# 写入获取到的ip地址到proxyproxy = { 'https':'221.178.232.130:8080'...原创 2019-08-08 13:44:39 · 546 阅读 · 0 评论 -
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码;# 需要的库import requestsimport reimport osfrom multiprocessing import Pool# 请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ...原创 2019-08-08 13:43:23 · 242 阅读 · 0 评论 -
django项目简单调取百度翻译接口
1,建路由;2,写方法;、--------------------------------------------------------------------注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料,感兴趣的+Q群:895817687---------------------------------------------------------...原创 2019-08-08 13:42:15 · 211 阅读 · 0 评论 -
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理http标准协议中有专门的字段记录referer一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段学习python中有什么不懂的地方,小编这里推荐加小编的python学习群:895,817, 687有任何不懂的都可以在里面交流,还有很好的视频教程pdf学习资料,大家一起学习交流!so:很多网...原创 2019-08-24 16:38:53 · 2588 阅读 · 0 评论