网络爬虫
文章平均质量分 95
网络爬虫知识学习积累
IT~子民
这个作者很懒,什么都没留下…
展开
-
Scrapy框架总结
目录:一.Scrapy框架简介 二.Scrapy框架的安装 三.Scrapy框架中各组件的介绍及之间的关系 四.Scrapy运行流程 五.Scrapy框架项目的创建及运行 六.Scrapy框架项目结构 七.Scrapy框架详细应用&实战项目 八.Scrapy框架的特殊用法 九.总结一.Scrapy框架简介:为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一...原创 2019-12-11 21:56:45 · 669 阅读 · 0 评论 -
python爬虫---bs4解析方式
一.环境安装:需要安装:lxml pip install lxml bs4 pip install bs4二.基础用法:from bs4 import BeautifulSoup使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或者属性去查找指定的内容 (1)转化本地文件: ...原创 2019-12-11 12:50:22 · 273 阅读 · 0 评论 -
python爬虫--正则解析方式
一.正则解析: 提取数据步骤:创建正则对象-->匹配查找-->提取数据保存;知识点:1.单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 ...原创 2019-12-11 11:31:21 · 297 阅读 · 0 评论 -
爬虫url去重策略&字符串编码
一.爬虫url去重策略将访问过的url保存到数据库中; 将访问过得url保存到set中,只需要o(1)的代价就可以查询url url 经过md5的编码等方法哈希后保存到set中(scrapy采用此方法) 用bitmap方法,将访问过的url通过hash函数映射到某一位 Bloomfilter方法对bitmap进行改进,多重hash函数降低冲突;ps:从字面上理解,url去重即去除...原创 2019-05-13 12:24:48 · 332 阅读 · 0 评论 -
python爬虫---css选择器
css选择器是什么? 要使用css对HTML页面中的元素实现一对一,一对多或者多对一的控制,这就需要用到CSS选择器。HTML页面中的元素就是通过CSS选择器进行控制的。 CSS选择器主要用于选择需要添加样式的元素。css选择器的详细用法:#container:选择id为container的节点.container:选取所有class包含container的节点...原创 2019-05-13 12:30:00 · 669 阅读 · 0 评论 -
网络爬虫基本原理
阅读目录一、爬虫是什么 二、爬虫的基本流程 三、http协议和https协议的区别 四、request与Response之间的关系 五、 request请求以及常用请求方式 六、Response响应 七、总结一.爬虫是什么? 互联网是什么?互联网是由一个个站点和网络设备组成的,通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析...原创 2019-12-10 21:38:30 · 2546 阅读 · 1 评论 -
python爬虫--xpath解析语法
什么是Xpath?Xpath 是一门在XML或者html文档中导航查找信息的语法,对HTML有很好的支持 xpath 是一个w3c的标准;xpath 包含标准库;Xpath语法的详细用法?1.节点关系 (层次关系) 2.节点选择 2.1节点选择 表达式:nodename |/ |// |. |.. |@nodename: 选取此节点的所有子节点 ...原创 2019-05-13 12:27:02 · 1416 阅读 · 1 评论 -
python爬取数据--存储mysql数据库
一.安装mysql:在官网:https://dev.mysql.com/downloads/mysql/二.安装驱动程序: 在python集成开发环境Anaconda下,需用命令:pip3 install pymysql或conda install pymysql安装。三.连接数据库:#建立mysql数据库连接import pymysqlconn = pymysql....原创 2019-10-18 22:02:34 · 861 阅读 · 0 评论 -
爬取数据存储于Excel表
一.利用pandas库直接存储为Excel文件; 主要技术点: 1.首先建立列表,存储每一次爬取的内容,为后面的字典存储做准备; 2.利用字典格式储存数据; 3.利用pandas中DataFrame()函数保存字典数据 并利用to_excel()函数储存到exel表格中;应用举例一:(菜鸟教程python100例url)from lxml...原创 2019-10-18 20:07:43 · 1172 阅读 · 1 评论