![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python网络爬虫学习笔记
MilkLeong
这个作者很懒,什么都没留下…
展开
-
爬取ctext(中国哲学书电子化计划)文本
几年前的代码,记在这里,以免后面找不到。刚刚运行了一下,代码还是能用的。原创 2024-08-04 11:11:24 · 92 阅读 · 0 评论 -
Beautiful Soup库入门(标签树、基本元素、遍历、输出)
本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。本文含有以下内容:一、BeautifulSoup库、html文档、标签树三者间关系二、使用Beautiful Soup库最基本的语句:三、BeautifulSoup类的基本元素四、HTML树形结构有三种遍历方法:五、基于bs4库的HTML格式输出Beautiful Soup库能够对提供给它的任何格式进行爬取,并且进行属性解析。在爬虫中,常被用来解析html和xml页面。一、BeautifulSoup库、html文档、标签树三者间关系Bea原创 2020-05-16 12:22:32 · 3049 阅读 · 0 评论 -
网络爬虫之添加头信息、提交关键词、保存图片
爬取亚马逊上的一本书1.使用requests库的get方法获得链接信息,并查看状态码import requestsr=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y")r.status_code输出的结果为:503,表明访问出现了错误2.查看网页页面内容r.encoding=r.apparent_encodingr.text结果如下:(或许英文中也有关于API的提醒)这表明访问出错,但这个错误是API造成的。如果原创 2020-05-15 09:42:10 · 456 阅读 · 0 评论 -
网络爬虫:爬虫的Robots协议
本文为北理嵩天老师《网络爬虫与信息提取》学习笔记。一、网络爬虫可按规分为三类:小规模中规模大规模爬取网页、玩转网页(占比>90%)爬取网站,或爬取系列网站爬取全网数据量小数据规模较大搜索引擎的规模爬取速度不敏感爬取速度敏感爬取速度很关键Requests库Scrapy库定制开发,不可能由第三方库来操作建议遵守爬虫协议必须遵守爬...原创 2020-04-12 22:09:21 · 854 阅读 · 0 评论 -
网络爬虫:Requests库入门
Requests库主要有七个方法:1.requests.request()构造一个请求,支撑以下各方法的基础方法(以下的方法都是通过调用该方法实现的)2.requests.get()获取HTML网页的主要方法,对应于HTTP的GET3.requests.head()获取HTML网页头信息的方法,对应于HTTP的GET4.requests.post()向HTML网页提交POST请求的...原创 2020-04-11 18:09:08 · 3056 阅读 · 1 评论 -
Python3爬取动态网页
本文为南大张莉老师《用Python玩转数据》学习笔记。利用ajax技术渲染的网页在源代码中看不到网页中呈现的内容,ajax不需要加载整个网页就可以更新部分的网页内容,如新浪鼓动新闻就可通过其右上角这个“刷新”按钮来动态生成网页。查看网页源代码,发现其中没有网页中所呈现的内容,所以需要用到浏览器的开发者工具进行查看(笔者是直接用Google浏览器右键的检查查看)找到最关键的地址,找到产生数据...原创 2020-04-06 00:06:33 · 827 阅读 · 0 评论 -
使用scrapy爬取网页
使用python爬取北京新发地市场的蔬菜、水果等的价格,并将爬取结果存储至mongoDB的数据库中。使用到的软件:1.anaconda32.mongoDB3.Navicat Premium需要安装的python第三方库:1.Scrapy爬虫框架2.pymongo步骤:一、预备工作1.启动mongoDB启动方式有多种,这里展示用命令提示符进行启动如上图示,则启动成功,还可在...原创 2020-04-04 23:58:37 · 1599 阅读 · 0 评论 -
Python3序列(字符串、列表、元组)
一、序列序列对象是可迭代的,即可以遍历对象的内部元素。切片:一次性访问多个元素。序列相关操作1.标准类型运算符:值比较(<,>,<=,>=)、对象身份比较(is,is not)、布尔运算(not,and,or)2.序列类型运算符:获取、重复、连接、判断3.内建函数:序列类型转换内建函数、序列类型可用内建函数序列的基本用法示例:>>> 'ap...原创 2020-03-27 20:41:13 · 1970 阅读 · 0 评论 -
Python网络爬虫:爬取豆瓣上《小王子》书评
本文为南大《用Python玩转数据》学习笔记用到的库或模块:1.Requests第三方库用于中小型网络爬虫的信息抓取。基本方法:requests.get() 请求获取指定YRL位置的资源,对应HTTP协议的GET方法Requests官网:http://www.python-requests.org/(可查看基本用法)2.BeautifulSoup库是一个可从HTML或XML文件中...原创 2020-03-09 22:21:52 · 1747 阅读 · 3 评论 -
urllib库request、error、parse、robotparser模块基本使用方法
urllib库含有如下四个模块:request模块:最基本的HTTP 请求模块,模拟浏览器发出请求。error模块:异常处理模块,用于捕获异常。parse模块:提供URL处理方法,比如拆分、解析、合并等。robotparser模块:识别网站robots,txt文件,判断网站是否可爬。一、request模块(一).urlopen()方法例:爬取python官网import urlli...原创 2020-02-15 22:32:15 · 1113 阅读 · 0 评论