爬虫
宗乐平
这个作者很懒,什么都没留下…
展开
-
python27爬虫
在python27中,首先需要在第一行定义编码:# _*_ coding:utf-8 _*_ 导入urllib2,访问百度网站,若设置访问超时的话,网络不稳定会造成访问超时python2中print不需要加括号response = urllib2.urlopen("http://www.baidu.com")print response打印出的结果是一个类文件对象:fileobject<a...原创 2018-06-24 15:17:57 · 620 阅读 · 0 评论 -
爬虫知识点(一) 正则和xpath (敲黑板的那种!!!)
最近有遇到接口返回值是xml文件,想匹配标签内的文本,难道要把xml转其他格式???不可能,以本人懒惰的本性,想让我多转一次都不可能那只能使用正则匹配了xml代码如下(代码不完整,没关系):text = '''<?xml version="1.0" encoding="utf-8"?><Response><SenderID> Se...原创 2019-05-15 11:12:56 · 290 阅读 · 0 评论 -
爬虫四 Python3 pandas爬取静态表格
ps:本人目前使用pandas的read_html方法只能抓取到静态的表格数据使用代码:import pandas as pd# 爬取网址url ='http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=1'# 找到所需爬取的表格 [0]代表取第一个表格tb = pd.read_html(url)[0]#保...原创 2018-11-30 15:21:30 · 1880 阅读 · 0 评论 -
爬虫二 python3 爬取APP经纬度转为商业圈经纬度
一、首先通过FIDDLER获取APP中的经纬度地址(至于使用哪种抓包工具看个人,本人使用的是fiddler软件) 二、查看该APP使用哪种地图(本人测试的APP使用百度地图,需要转为高德地图经纬度)高德地图转换API:https://lbs.amap.com/api/webservice/guide/api/convert 三、转换后的经纬度再通过逆地理API找到商业圈经纬...原创 2018-11-12 14:45:44 · 490 阅读 · 0 评论 -
爬虫一 FIDDLER抓包工具的使用
一、安装 fiddler(具体什么版本自己决定,大致不变)二、设置fiddler的选项1、选择Tools-->Options-->HTTPS 2、勾选图片中的选项:3、点击红框中的Actions-->Trust Root Certificate(目的是为了安装证书,防止实现抓包APP也无法上网) 4、HTTPS-->Connec...原创 2018-11-12 14:37:23 · 296 阅读 · 0 评论 -
爬虫三 Requests使用POST方法访问HTTPS网址
一、问题:requests的post方法访问https出现SSL错误信息 1、 解决方案:在提交的参数后添加# 忽略SSL证书验证res = requests.post(url, headers=h, data=json.dumps(d), verify=False) 2、运行后并伴有以下提示信息 (这是一个忽略证书验证显示的提示信息,可以忽略不...原创 2018-11-13 16:18:14 · 5543 阅读 · 0 评论 -
python3 requests 对数据去重入库
对于自己使用requests创写的类及方法想要对数据进行去重入库问题1:如何做到数据去重处理?答:使用set,并且set能够自动实现去重效果,可以配合列表使用。问题2:当列表中有大数据怎么提高读取速度?答:转换为set类型。a = [1, 4, 7, 2, 1, 8, 7]b = set(a)print(type(b), b)>>> <cla...原创 2018-09-20 17:39:36 · 770 阅读 · 0 评论 -
python3 requests IP代理池出错
Traceback (most recent call last): File "E:/py1803/pachong/mimimovie/movies_spider.py", line 129, in <module> m.get_content() File "E:/py1803/pachong/mimimovie/movies_spider.py", line 6...原创 2018-09-20 14:39:48 · 2396 阅读 · 2 评论 -
python3 使用正则表达式匹配ajax文本数据
首先正则表达式要匹配字典前的数据 myre = re.compile(r'var jsonm = (.*?);')如果多匹配数据,则无法使用json数据类型 myre = re.compile(r'var jsonm = {"stat":200,"musiclist":\[(.+)],"') 用以上正则匹配后报错内容:json.decoder.JSONDecode...原创 2018-09-20 11:00:58 · 302 阅读 · 0 评论 -
python3 爬虫插入数据报错
报错:pymysql.err.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ')' at line 1")原因:...原创 2018-09-20 10:25:59 · 345 阅读 · 0 评论 -
爬虫向mysql插入数据报错 pymysql.err.DataError: (1406, "Data too long for column 'name' at row 1")
向mysql 插入数据并能显示一条数据再报错pymysql.err.DataError: (1406, "Data too long for column 'name' at row 1")原因:字段的长度不够存放数据解决方案:就是更改mysql中name 字段的max_length 的长度...原创 2018-09-20 10:21:12 · 10199 阅读 · 0 评论 -
爬虫知识点(二) 正则匹配数字 (敲黑板的那种!!!)
只有偷懒才能让我进步!!!继续撸需求,在请求接口时返回了一个html页面,需要匹配其中的价格,但是数字并不是唯一的,如何匹配? (由于一些原因,把文字做了修改,请不要在意细节)<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=GBK" />...原创 2019-05-15 11:47:15 · 327 阅读 · 0 评论