python爬虫学习
文章平均质量分 58
JPC客栈
分享Java、Python、C/C++、JavaScript等编程语言的相关知识和应用
展开
-
Python爬虫入门指南:使用代码轻松实现网络数据抓取
爬虫(Spider)是一种自动化程序,通过模拟人类对网页的访问行为,从网页中抓取所需的数据并进行处理。它可以遍历网页上的链接,获取页面内容、图片、视频等各种形式的数据,甚至可以进行数据的清洗和分析。原创 2024-04-07 09:30:57 · 1839 阅读 · 0 评论 -
Python爬虫之scrapy框架-爬取小说信息
我们要得到起点中文网中小说热销榜的数据,每部小说的提取内容为:小说名字、作者、类型、形式。然后将得到的数据存入CSV文件。创建一个scrapy爬虫项目方式如下:(4)创建一个名为qidian_hot的项目(5)用pycharm打开qidian_hot项目其他文件暂时不用管,在spiders文件夹下创建一个Python文件qidian_hot_spider.py.在这个文件下编写代码。4、终端运行爬虫程序(1)将文件夹改到项目文件夹下(2)输入爬虫执行命令,回车hot是爬虫名称,- o原创 2022-06-30 22:55:20 · 1608 阅读 · 0 评论 -
python爬虫视频学习-爬取某度翻译(Ajax)post请求
先打开“检查”,再输入dog,才能看到sug,记得刷新。找到kw=dog的sug。对应的请求为post请求(携带了参数)响应数据是一组json数据import requestsimport jsonif __name__ == "__main__": # 指定url post_url = 'https://fanyi.baidu.com/sug' # UA伪装 headers = { 'user-agent': 'M...原创 2021-12-10 18:49:38 · 349 阅读 · 0 评论 -
python爬虫项目实战-TOP250电影数据
一、网站分析打开网站,使用”检查“功能查看该网页的请求头。提取其中重要的请求头,用for循环来实现翻页。import requestsdef get_movies(): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/94.0.46原创 2021-12-07 21:09:50 · 528 阅读 · 0 评论 -
python爬虫学习-发送POST请求
'''发送POST请求除了GET请求外,有时还需要发送一些编码为表单形式的数据,如在登入的时候请求就为POST,因为如果用GET请求,密码就会显示在URL中,这是非常不安全的;要实现POST请求,只需要简单地传递一个字典给Requests中的data参数,这个数据字典就会在发出请求的时候自动编码为表单形式。'''import requestskey_dict = {'key1': 'value1', 'key2': 'value2'}r = requests.post('http:/.原创 2021-12-06 20:17:35 · 2195 阅读 · 0 评论 -
python爬虫学习-定制请求头
请求头Headers提供了关于请求、响应或其他发送实体的信息。下面以某书上的教程为例,查找正确的请求头。通过chrome浏览器的”检查“命令,单击Network选项,在左侧的资源中找到需要请求的网页,单击需要请求的网页,在Headers中可以看到Requests Headers的xiang'xi'xi...原创 2021-12-06 20:03:15 · 3522 阅读 · 0 评论