![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
小脏狗
心有猛虎,细嗅蔷薇。
展开
-
【爬虫Practice】学习过程中遇到的问题
文章目录1. 无法连接至pypi开源网站2. SSLError: wrong version number3. UnicodeEncodeError4. VS Code OUTPUT里无法输入5. 无法加载文件 E:\SpiderPractice\venv\Scripts\Activate.ps16. 伪造User-Agent6. FakeUserAgentError7. BeautifulSoup中文乱码8. lxml.etree.XMLSyntaxError9. Running setup.py in原创 2021-12-11 22:06:59 · 1219 阅读 · 0 评论 -
【爬虫Practice5】爬取网易云音乐评论
这里以爬取网易云某一首歌的评论为例,当然爬取歌词等方法也是一模一样的,只是请求的参数不一样,这里比较难的地方就是解密和加密的过程,需要弄清楚。评论加载、歌词等都是通过Ajax请求来的,但下面的参数被加密了import requestsimport jsonfrom fake_useragent import UserAgentfrom Crypto.Cipher import AES from base64 import b64encodeif __name__ == "__main__原创 2021-12-11 21:56:47 · 653 阅读 · 0 评论 -
【爬虫Practice3】爬取药监总局企业详情
思路:打开药监总局输入URL爬取的并不能获得全部信息,说明页面存在动态加载 由Ajax请求的 通过抓包查看。通过首页域名+id 可以获得企业详情页的信息 id可以通过首页获取到,验证刚才获得的URL看一下是否是动态加载 看抓包工具 查找数据发现URL得不到 也是动态加载的,多找几个类比一下 观察URL和参数。如何批量获取企业ID?在首页的数据中。import requestsimport jsonfrom fake_useragent import UserAgentif __name__ =原创 2021-12-11 21:40:15 · 1072 阅读 · 0 评论 -
【爬虫Practice2】爬取豆瓣高分电影
文章目录爬取豆瓣高分电影爬取过程可能存在的问题 这一节是爬取豆瓣高分电影排行榜,具体参数可以改动,比如什么种类电影、年份等,观察一下request的参数就可以了。爬取豆瓣高分电影import requestsimport jsonimport refrom fake_useragent import UserAgentif __name__ =="__main__": get_url = 'https://movie.douban.com/j/new_search_subjects原创 2021-12-11 21:35:01 · 296 阅读 · 0 评论 -
【爬虫Practice1】requests模块简单使用
文章目录环境说明1. requests模块的简单用法1. 1 get() :以获取搜狗搜索首页为例1.2 post():以百度翻译为例1.3 cookie与session:以17k小说网为例2. 爬取豆瓣高分电影环境说明 系统是windows10,python版本是32位3.7版本。所有代码执行的案例来自于B站视频讲解内容,链接在路飞IT学城,但可能章节不是完全对的上的,仅是自己学习时的一些实验。1. requests模块的简单用法1. 1 get() :以获取搜狗搜索首页为例# MyGoal:原创 2021-12-11 21:25:32 · 208 阅读 · 0 评论