![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
半旧。
这个作者很懒,什么都没留下…
展开
-
python爬虫第三节:五个小例子
# # 1.爬取京东商品 import requests def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() # 如果状态不是200,引发HTTPError异常 r.encoding = r.apparent_encodin...原创 2019-07-23 16:20:10 · 180 阅读 · 0 评论 -
python爬虫第四节:BeautifulSoup库 基本用法 + 理解
演示HTML的页面地址:https://python123.io/ws/demo.html 源码如下: <html><head><title>This is a python demo page</title></head> <body> <p class="title"><b>The d...原创 2019-07-25 10:20:24 · 261 阅读 · 0 评论 -
python爬虫第五节:信息标记三种形式:XML、JSON、YAML + 信息提取
信息标记的三种形式:XML、JSON、YAML 与信息本身相比,标记信息的结构也有着非常重要的价值。 XML: 当标签有内容时:用一对标签表示,如:<name>...</name> 当标签无内容时:用一个标签表示,如:<name /> 当然,注释情况:<!-- --> JSON: 有类型的键值对,有双引号,无法表示注释。 可以嵌套...原创 2019-07-25 17:27:01 · 225 阅读 · 0 评论 -
python爬虫第六节:“中国大学排名”定向爬虫
功能描述: 1.输入:大学排名的 URL 链接 2.输出:大学排名信息的品目输出(排名,大学名称,总分) 3.定向爬虫:仅对输入 URL 进行爬取,不扩展爬取其他 URL http://www.zuihaodaxue.com/robots.txt 查看robots协议:发现404 ,说明没有爬取限制 # 实现步骤: # Code: import requests from b...原创 2019-07-25 19:52:43 · 334 阅读 · 0 评论 -
python爬虫第一节:Requests库的方法、Response对象属性、通用代码框架、HTTP协议对资源操作
爬虫离不开Request库,Requst库的7个主要方法:(其实只有一个方法就是request方法,其他6个方法底层都是调用的request方法,但是为了让coders写起来更方便,所以封装了另外6个常用方法) 其中最重要(常用的)get函数,传入url,返回一个Response对象 返回的Response对象 r :服务器返回的所有信息。 Response对象有哪些属性呢? ...原创 2019-07-23 11:11:38 · 642 阅读 · 0 评论 -
python爬虫第七节:正则表达式
1.正则表达式的概念: 正则表达式优势:简洁、“一行胜千言”、表示了一组字符串的特征或者模式 例如: 2.正则表达式的使用: (1)正则表达式,说到底,刚开始还是一个字符串,我们需要对这一个字符串进行编译, 即:将符合正则表达式语法的字符串转换成正则表达式特征。 (2)编译前这个表达式就是一个普通的字符串,只不过满足了正则表达式的语法, 编译之后,它才真正成为正则表达式。 ...原创 2019-08-05 12:03:15 · 221 阅读 · 0 评论 -
python爬虫第二节:安全问题、Robots协议
网络爬虫引发的问题: 骚扰问题、法律问题、隐私问题 整个Internet将网络爬虫看成一个可规范的功能来看待: 通过技术:来源审查 User-Agent 通过道德:Robots协议(可以不遵守,但是要承担法律风险) Robots协议: 作用:告知爬虫哪些可以爬取,哪些不行。 形式:在网站根目录下放置robots.txt文件 我们可以查看如下:(*表示所有 /代表根目录) https:...原创 2019-07-23 14:57:28 · 318 阅读 · 4 评论