【python-爬虫】

爬虫:数据采集
1.什么是爬虫
2.爬虫的分类
3.urllib库
urllib.request urllib.parse
urlopen(链接|请求头)
urllib.request.Request() #请求头对象
响应头对选对象response

4.几种常见反爬:
用户代理: 破解方案:伪造User-Agent
是不是人的行为: 破解方案:模拟人的行为time.sleep(random.randint(1,5))
屏蔽IP地址 破解方案:代理IP地址
5.get请求和post请求
HTTP1.0 5中请求访问 get post delete put head
HTTP1.1 增加了3中,共有8中请求请求 get post delete put head trace options connect

requests第三库的使用:开源于GitHub
1.安装与配置:
在线安装:在cmd输入pip install requests(python -m pip install requests)
安装requests库,遇到的问题
1.网络超时报错:pip --timeout=100 install requests -i http://pypi.douban.com/simple/
2.pip更换豆瓣源:pip3 install numpy -i http://pypi.douban.com/simple/
离线安装:
1.先到GitHub下载requests:https://github.com/psf/requests/release
2.解压压缩包
3.cd到压缩包
4.python setup.py install

2.requests库常见方法:(requests底层是)
import requests
dir(requests)

经常采集,爬取到数据并不一定符合你需要数据格式,一般就需要对采集的数据二次的筛选和过滤:
1.正则表达式 #只要返回的数据是文本字符串,优点:高效,缺点:入手比较难
2.xpath #DOM结构(“文档对象模型(Document Object Model,DOM)是一种用于HTML和XML文档的编程接口)
3.json模块 #专门解析json字符串
4.JSONpath #专门解析json字符串
5.pyquery #跟jQuery库操作一致
6.bs4 #Beautifulsoup
一、xpath:可以解析xml的一种技术
1.#json–节点
{‘id’:1,“name”:“zs”,“nickname”:“张三”}
2.#xml可扩展性标记语言–元素

zs
张三

3.#html超文本标记语言,标签固定化–标记

以上符合这三种爬取的数据格式就可以用xpath来解析: 1.xpath常用规则 nodename --根据nodename选中它的所有子节点(不使用) / --从根节点选取直接子节点 // --从任意节点取子节点 . --选取当前节点 ..--选取父节点 @ --选取属性 2.python使用xpath:导入lxml模块 3.xpath工具:xpath-helper
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骑着蜗牛追汤圆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值