![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
某站自学的爬虫,和大家分享一下!
别叫我派大星
哦豁,拐咯
展开
-
Python爬虫——【4】requests简单实用之破解百度翻译
破解百度翻译今天来简单说说如何用爬虫实现调用百度翻译进行翻译!还是按照公式一步步来:"""TOPIC: 破解百度翻译author: Bluetime: 2020-09-02"""import requestsimport jsonif __name__ == "__main__": # 1. 指定url post_url = 'https://fanyi.baidu.com/sug' # 2. 进行UA伪装 headers = { 'Use原创 2020-10-31 11:22:26 · 626 阅读 · 0 评论 -
Python爬虫——【3】requests简单实用之简易网页采集器
简易网页采集器今天来做一个简单的网页采集器,即你输入想要查找的信息,让代码给你返回想要查找的信息对应的页面。1. 理论知识UA: User-Agent(请求载体的身份标识)反爬机制——UA检测: 门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求。但如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常请求(爬虫),则服务器端很有可能拒绝该次请求。反反爬策略——UA伪装: 让爬虫对应的请求载体身份标识伪装成某一款原创 2020-10-26 20:47:09 · 890 阅读 · 4 评论 -
Python爬虫——【2】requests简单实用之爬取搜狗首页的页面数据
requests之爬取搜狗首页的页面数据基础爬虫其实很简单,就相当于套公式,今天就来简单说说基础爬虫的基础使用吧。1. requests模块在基础爬虫中,用得比较多的是requests这个模块。requests模块: python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。如何使用:(requests模块的编码流程):1. 指定url2. 发起请求3. 获取响应数据4. 持久化存储环境安装:pip install requests不原创 2020-10-23 16:54:31 · 1329 阅读 · 0 评论 -
Python爬虫——【1】基础爬虫知识
爬虫1. 爬虫在使用场景中的分类通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。2. 反爬反爬机制门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。反反爬策略爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站robots.txt协议:君子协议。规定了网站中哪原创 2020-10-21 21:43:22 · 261 阅读 · 0 评论