python爬虫
DHPYX
这个作者很懒,什么都没留下…
展开
-
爬虫入门学习---百度翻译
利用requests模块来抓取百度翻译的这个部分:也就是实现局部页面的抓取。原创 2022-01-23 18:17:29 · 536 阅读 · 0 评论 -
爬虫入门学习---制作一个简易的网页搜索器(详细)
目录UA检测:UA伪装 :方法:User-Agent:爬虫编写:完整代码如下:UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求,但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求不是一个正常的请求,则服务器端很有可能会拒绝本次请求UA伪装 :让爬虫对应的身份标识伪装成某一款浏览器方法:将对应的User-Agent封装到字典中代码如下:..原创 2022-01-11 21:56:05 · 975 阅读 · 0 评论 -
爬虫入门学习---爬取搜狗网页数据
什么是爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网抓取数据的过程我用的是pycharm中的requests模块来实现步骤如下:目录步骤如下:代码如下# step1:指定url# step2:发起请求# step3:获取响应数据,text返回的是字符串形式的响应数据# step4:持久化存储代码如下# 需求:爬取搜狗首页数据import requests# step1:指定urlurl = 'https://www.sogou.com/'#.原创 2022-01-08 09:24:25 · 1374 阅读 · 0 评论