python数据抓取
墙角的秋天
这个作者很懒,什么都没留下…
展开
-
python爬虫异常处理
URLError造成原因1 本地网络未连接 2 服务器不存在 3 连接不到特点的服务器 4 httperror,httperror是urlerror子类 使用try,except来捕获异常import urllib.requestimport urllib.errortry: urllib.request.urlopen('http://blog.csdn.net')#需要检测的原创 2018-02-01 12:31:17 · 764 阅读 · 0 评论 -
python使用代理服务器获取网页数据
免费代理ip网址:http://www.xicidaili.com/ 多次重复获取网页时,很容易被网站的反扒封掉ip,这时可以使用代理,python使用代理非常简单,三行代码即可实现。#使用urllib库的ProxyHandler添加代理ip地址。proxy_add为要添加的ip地址,:端口即可proxy = urllib.request.ProxyHandler({'http':prox原创 2018-02-02 18:53:53 · 978 阅读 · 0 评论 -
python urllib库获取淘宝主图
1 分析首先对网页url进行分析。我们将第二页、第三页最后s=44改为s=0时,我们刚好获取的为第一页数据,所以我们总结出商品的页数为链接最后的s=44*ii为页数为[0,1,2,3…]#第一页链接#https://s.taobao.com/search?q=%E8%B6%85%E7%9F%AD%E8%A3%99&imgfile=&js=1&stats_click=search_ra原创 2018-02-03 09:50:46 · 1891 阅读 · 1 评论 -
python3 unicode列表转换为中文
查了很多很多的资料无果,果然知乎牛逼,链接,完美解决。 爬取网站时,最终得到list内容,编码为unicode,想让其转换为汉字并输出。 需要提取的为下图中unicode部分: 保存为列表,然后使用for循环: text为获取的网页。pat = '"group": {"text": "(.*?)"'text_list = re.compile(pat).findall(text)fo原创 2018-02-08 21:50:11 · 21268 阅读 · 1 评论 -
python多线程获取内涵段子
1 主要几个难点1。每页会有20个段子,会出现加载更多,点击加载更多,url并没有改变,打开显示网页源代码,并没有获得段子。所以需要用到抓包获取实际段子地址,使用Chrome自带的检查找到真实的地址。 触发一次加载操作,我们获得的真实地址为: 多次触发后分析地址可得到max_time为time.time()获取的当前的时间戳,所以我么可以通过推后time.sleep(2)来更新段子。2。从网原创 2018-02-08 23:13:26 · 351 阅读 · 0 评论 -
使用scrapy框架爬取当当网图书并存入mysql
这些数据并不需要模拟登陆,模拟登陆会在下一偏博客写。 主要步骤: 创建项目scrapy startproject dangdang 使用默认模版创建爬虫scrapy genspider -t basic dd dangdang.com1。编写items,即需要爬的分类import scrapyclass DangdangItem(scrapy.Item): # defi...原创 2018-02-19 22:23:42 · 2179 阅读 · 0 评论 -
python3 scrapy模拟登陆豆瓣
首先感谢知乎,在我遇到问题时提问有人及时帮助解决。问题在下面说。1。遇到的问题由于程序没有做后续的数据处理,所以没有用到pipelines,只在爬虫文件里编辑,在模拟浏览器时也将也将浏览器header写在db.py文件中,在知乎得到答案,USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (原创 2018-02-21 03:17:10 · 1230 阅读 · 0 评论 -
python3 scrapy框架crawl模版爬取京东产品并写入mysql
crawl将自动对所有链接进行分析,将符合的链接数据爬取。官方文档 ,其中价格,好评率需要用浏览器抓包分析真实地址,本文所用的基础技术包括:sql语句,re表达式,xpath表达式,基本的网络知识和python基础jd.py# -*- coding: utf-8 -*-import scrapyimport urllib.requestfrom scrapy.linkext...原创 2018-02-21 23:40:28 · 1561 阅读 · 6 评论