爬虫
陈逸飞_p
这个作者很懒,什么都没留下…
展开
-
python 爬虫学习入门 数据分析BeautufulSoup4 简
BeautifulSoup4BeautifulSoup4 和lxml 的提取方法有相似之处, 都是通过标签来对内容进行分析,用beautifulSoup4 对其进行分析的步骤有以下几点:由于BeautifulSoup4 不能处理字符串类型的文本信息,因此需要对字符串类型的html文本进行转化,转换成html 类型的html 文档第一步, 文档类型转换from bs4 import BeautifulSoup# 通过爬虫获取到的html 文档,是字符串类型html = "我是字符串类型的ht原创 2021-01-28 09:40:38 · 188 阅读 · 0 评论 -
python 爬虫学习入门, 数据分析 正则表达式
数据分析当我们获取到网页的内容之后,我们需要对信息进行进一步的提取,数据提取的话有很多中提取方式,简单的提3个,正则表达式,xpath,和bs4,这几个都可以帮助我们提取到有用的信息,因为目前看到了正则表达式,我就根据正则表达式来大致的写一下提取的过程,以及我提取过程中所遇到的问题正则表达式语句用法...原创 2021-01-27 08:48:59 · 186 阅读 · 0 评论 -
python 爬虫学习入门6 requests库 添加代理proxies等其他信息
Requests库通过Requests 库 提供的方法我们可以在请求页面的时候同时添加更多的信息,在urllib库中同时添加代理和User-agent 我在网上找了一些办法但是没有理解就不在这里说了,有兴趣的可以自己在网上搜。Request 库中添加代理的方法是传递proxies 参数, 同时可以设置超时等待条件如下:import requestsurl = "http://www.baidu.com"# 添加User-agent 等 头部信息headers = { 'User-原创 2021-01-26 16:05:43 · 2462 阅读 · 0 评论 -
python 爬虫学习入门5 requests库
Requests库requests库为我们提供了一个封装好的 库函数, 使用更为简便爬虫步骤依然跟以前一样添加爬取网站的url信息,用代码获得网页信息数据分析数据保存# resquests 库的函数就相对简单import requestsurl = requests.get(url)# 调用get 函数即可取代urllib.request.urlopen函数,response = requests.get(url)# 通过content 属性, 获取网站信息, conten原创 2021-01-25 13:41:28 · 150 阅读 · 0 评论 -
python 爬虫入门学习4 urllib添加cookies验证
添加cookies分为手动添加cookies 和 自动添加cookies在登陆网页之后会在本地存储你的cookie信息,用于身份验证,就像是一把钥匙,我们可以手动添加cookie 和 自动添加cookie 当然自动添加cookie 是建立在手动的基础上,手动添加cookie# 手动添加cookie 比较简单, 因为cookie 是存储在头部信息中的 如果想要添加cookie信息,只需要在header 中增加一条keyheader = { 'User-agent': '321', 'cooki原创 2021-01-25 13:27:34 · 1478 阅读 · 0 评论 -
python爬虫学习入门3 urllib 添加代理 proxy
进阶操作3 添加Proxy 代理在之前学习了如何添加headers 来伪装浏览器,下面简单讲一下如何通过创建"处理器" 来添加Proxy代理, 回顾之前的第一章,我们用的urlopen()方法来直接请求网页,但是urlopen()这个函数中并没有添加代理的方法,因此需要另辟蹊径。添加handler 的方法添加Proxy爬虫的四个步骤还是那样,第一步 添加要爬取网页的url 地址第二步 发送数据请求第三步 分析数据第四部保存# 还是引用urllib.request 库文件import ur原创 2021-01-25 09:49:18 · 2579 阅读 · 0 评论 -
python爬虫学习入门2 urllib伪装浏览器
进阶操作2通过添加头部信息User-agent 来模仿浏览器===因为在正常的请求信息过程中,你的浏览器信息会随着请求一起发送到目标url 地址后台因此 如果想要不被那么轻易的发现要先学会伪装自己的请求同样以urllib 库来进行演示# 1. 首先确定要爬取的网址的urlurl = "http://www.baidu.com"# 2. 向服务器发送请求 # 2.1 这里不同的一点是我们需要创建一个请求对象 在上一章中是没有创建请求对象的 这里使用urllib.request.Request原创 2021-01-22 15:51:12 · 246 阅读 · 0 评论 -
python爬虫学习入门1 urllib 库
python爬虫 学习学习爬虫因为爬取的一般都是网站,在后期可能会出现需要登陆网站等等的信息, 因此在学爬虫前需要大致的了解一下html 网站的架构,以及前端向后端传递参数时候的大致要求.http 的请求方式get 请求post 请求在学习的前两天如果有时间的话大致的去了解一下这两个请求方式, 在传递账号密码参数的时候一般都选择使用post 请求,这样的方式更加安全,爬虫的一般步骤获取你需要爬区网页的url使用python 代码发送网络请求获取你通过python 代码发送的网络请求原创 2021-01-22 14:09:14 · 243 阅读 · 4 评论