爬虫
Artoria____
All the injustices are caused by our own incompetence
展开
-
Python爬虫初接触(五)
一、JSON处理json在线解析JSON支持数据格式:对象(字典)使用花括号{}数组(列表)使用方括号[]字符串类型必须要用双引号,不能用单引号整形、浮点型、布尔类型还有null类型多个数据之间要用逗号隔开Python对象转换成JSON字符串(1)dumps函数import jsonbooks = [ { "na...原创 2019-08-24 20:47:30 · 188 阅读 · 0 评论 -
Python爬虫初接触(一)
最近在试着学一些和爬虫有关的基础内容,总结至此一、常见的请求Method在Http协议中,定义了以下8种常见的请求方法:序号方法描述1GET请求指定的页面信息,并返回页面主体2HEAD类似于GET,只不过返回的响应中没有具体的内容,用于获取报头3POST向指定资源提交数据进行处理请求(例如提交表单或上传文件)。数据被包含在请求体中。POST请...原创 2019-07-26 01:09:16 · 180 阅读 · 1 评论 -
Python爬虫初接触(二)
接着来学习urllib库的一些内容一、urlopen在urllib库中,所有和网络请求相关的方法,都被集中到urllib.request模块下面。因此要首先通过from urllib import request导入,再通过request.xxx使用from urllib import requestresp = request.urlopen('http://www.baidu.c...原创 2019-08-07 15:35:59 · 319 阅读 · 0 评论 -
Python爬虫初接触(三)
一、XPath语法XPath使用路径表达式来选取XML文档里的节点或者节点集。这些路径表达式和我们在常规电脑文件系统中看到的表达式十分相似表达式描述实例结果nodename选取此节点的所有子节点bookstore选取bookstore下所有的子节点/如果实在最前面,代表从根节点选取。否则选取某节点下的某个节点/bookstore选取根元素下所有的boo...原创 2019-08-20 15:00:15 · 327 阅读 · 2 评论 -
Python爬虫初接触(四)
正则表达式和re模块单字符匹配import re匹配某个字符串:test = 'abc'ret = re.match('a', test)# print(ret.group())点(.):匹配任意的字符(除了’\n’)test = '+bc'ret = re.match('.', test)# print(ret.group())\d:匹配任意的数字te...原创 2019-08-23 16:40:54 · 197 阅读 · 0 评论 -
Python爬虫初接触(六)
这篇博客做一个爬虫的实例今天刚看到一个新闻,在7月26日上映的《哪吒之魔童降世》,密钥第二次延期至10月26日。截止至9月17日,《哪吒之魔童降世》票房已超49亿票房,在豆瓣上对该电影的评价有好有坏。说实话,博主看了这个电影真的觉得蛮不错的,因此把短评中的差评爬取下来,看下差评包括哪些方面首先需要了解下差评文字内容在哪些标签下:进入豆瓣该电影短评界面,检查元素:可以看出,每一...原创 2019-09-17 23:34:32 · 328 阅读 · 1 评论