网络爬虫
爬虫
青梅换了酒钱(shilin)
某普通高校研一学生,喜好Java,Python,正在学习Java基础知识、SSM框架、SpringCloud、爬虫、Django、数据分析、机器学习等知识,请各位大佬多多指教。
github地址:https://github.com/github-zsl
注:所有博客只做学习记录,参考了不少前辈的经验。如有雷同,纯属借鉴,前人种树,后人乘凉,感激不尽。
展开
-
python网络爬虫--requests模块
requests 模块简介简介: 爬虫中的一个基于网络请求的模块安装:pip install requests作用: 模拟浏览器发起请求编码流程:1.指定url2.发起请求3.获取响应数据(爬取到的页面源码数据)4.持久化存储requests模块的使用第一个反爬机制robots 协议: 是一个纯文本协议, 协议中规定了该网站中的那些数据可以爬取、那些不可以爬取。破解: 你自己主观性的不遵从该协议即可。import requests实战案例1: 爬取搜狗首页的页.原创 2020-09-04 10:05:13 · 1898 阅读 · 1 评论 -
python网络爬虫--爬虫概述
什么是爬虫?就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程关键字:模拟:浏览器本身就是一个纯天然的原始爬虫工具抓取:抓取一整张的页面源码数据抓取一整张页面中的局部数据爬虫的分类通用爬虫:要求我们爬取一整张页面的源码数据聚焦爬虫:要求我们抓取一整张页面中的局部数据,建立在通用爬虫基础上增量式爬虫:用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据(爬没爬过的数据)分布式爬虫:提高爬取效率的终极武器。.原创 2020-09-04 10:03:03 · 183 阅读 · 0 评论 -
python网络爬虫--正则表达式
正则表达式及其应用正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串正则表达式是字符串处理的有力工具,正则表达式使用预定义的模式去匹配一类具有共同特征的字符串,可以快速、准确地完成复杂的查找、替换等处理要求,比字符串自身提供的方法提供了更强.原创 2020-09-04 10:01:55 · 229 阅读 · 0 评论