- 博客(18)
- 资源 (4)
- 收藏
- 关注
原创 【爬虫Practice】学习过程中遇到的问题
文章目录1. 无法连接至pypi开源网站2. SSLError: wrong version number3. UnicodeEncodeError4. VS Code OUTPUT里无法输入5. 无法加载文件 E:\SpiderPractice\venv\Scripts\Activate.ps16. 伪造User-Agent6. FakeUserAgentError7. BeautifulSoup中文乱码8. lxml.etree.XMLSyntaxError9. Running setup.py in
2021-12-11 22:06:59 1232
原创 【爬虫Practice5】爬取网易云音乐评论
这里以爬取网易云某一首歌的评论为例,当然爬取歌词等方法也是一模一样的,只是请求的参数不一样,这里比较难的地方就是解密和加密的过程,需要弄清楚。评论加载、歌词等都是通过Ajax请求来的,但下面的参数被加密了import requestsimport jsonfrom fake_useragent import UserAgentfrom Crypto.Cipher import AES from base64 import b64encodeif __name__ == "__main__
2021-12-11 21:56:47 655
原创 【爬虫Practice3】爬取药监总局企业详情
思路:打开药监总局输入URL爬取的并不能获得全部信息,说明页面存在动态加载 由Ajax请求的 通过抓包查看。通过首页域名+id 可以获得企业详情页的信息 id可以通过首页获取到,验证刚才获得的URL看一下是否是动态加载 看抓包工具 查找数据发现URL得不到 也是动态加载的,多找几个类比一下 观察URL和参数。如何批量获取企业ID?在首页的数据中。import requestsimport jsonfrom fake_useragent import UserAgentif __name__ =
2021-12-11 21:40:15 1078
原创 【爬虫Practice2】爬取豆瓣高分电影
文章目录爬取豆瓣高分电影爬取过程可能存在的问题 这一节是爬取豆瓣高分电影排行榜,具体参数可以改动,比如什么种类电影、年份等,观察一下request的参数就可以了。爬取豆瓣高分电影import requestsimport jsonimport refrom fake_useragent import UserAgentif __name__ =="__main__": get_url = 'https://movie.douban.com/j/new_search_subjects
2021-12-11 21:35:01 297
原创 【爬虫Practice1】requests模块简单使用
文章目录环境说明1. requests模块的简单用法1. 1 get() :以获取搜狗搜索首页为例1.2 post():以百度翻译为例1.3 cookie与session:以17k小说网为例2. 爬取豆瓣高分电影环境说明 系统是windows10,python版本是32位3.7版本。所有代码执行的案例来自于B站视频讲解内容,链接在路飞IT学城,但可能章节不是完全对的上的,仅是自己学习时的一些实验。1. requests模块的简单用法1. 1 get() :以获取搜狗搜索首页为例# MyGoal:
2021-12-11 21:25:32 208
原创 Office2016 Word无法使用快捷键粘贴的问题
Office2016 Word无法使用快捷键粘贴的问题最近实验室配了新电脑,重新装了Office2016,又下载了mathtype,不知道是什么原因导致粘贴快捷键(ctrl+v)无法使用,只能用右键选择粘贴。主要有以下解决方式:1.更改加载项(考虑mathtype) 操作方法2.使用所有宏定义 操作方法3.与搜狗某一快捷键冲突4.与有道词典快捷键冲突问题在于该快捷键可能与某一软件设置的快捷键发生了冲突,在尝试过以上方法无果之后,决定采取“山不过来我就过去”的办法,手动更改word粘贴快捷
2021-10-14 17:48:43 1653 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人