python爬虫
smygirlfriend
这个作者很懒,什么都没留下…
展开
-
“股票数据定向爬虫”实例介绍
功能描述:目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:requests-re-bs4候选数据网站的选择新浪股票:http://finance.sina.com.cn/stock/百度股票:https://gupiao.baidu.com/stock/选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有robots协议限制选取方法:浏览器F12,源代码查看等选取心态:不要纠结于某个网站,多找信息源尝试程序的结构设计步骤1:从东方财富网获取股票列原创 2020-06-20 21:18:46 · 1113 阅读 · 0 评论 -
淘宝商品比价定向爬虫实例介绍
功能描述目标:获取淘宝搜搜页面的信息,提取其中的商品名称和价格理解:淘宝的搜索接口&翻页的处理技术路线:requests&re“书包”:变量s代表下一页起始商品的信息定向爬虫的可能性:查看robots协议程序的结构设计:步骤1:提交商品搜索请求,循环获取页面步骤2:对于每个页面,提取商品名称和价值信息步骤3:将信息输出到屏幕上案例总结:-采用了requests-re路线实现了淘宝商品比价定向爬虫-熟练掌握正则表达式在信息提取方面的作用代码:import r原创 2020-06-20 20:57:12 · 1009 阅读 · 3 评论 -
正则表达式的使用
正则表达式定义正则表达式:regular expression/regex/RE正则表达式是用来简洁表达一组字符串的表达式正则表达式的特征-通用的字符串表达框架-简洁表达一组字符串的表达式-针对字符串表达“简洁”和“特征”思想的工具-判断某字符串的特征归属正则表达式的用途-表达文本类型的特征(病毒、入侵等)-同时查找或替换一组字符串-匹配字符串的全部或部分(主要使用)正则表达式的使用-将符合正则表达式语法的字符串转换成正则表达式特征正则表达式的语法正则表达式特殊字符:原创 2020-06-15 10:44:34 · 147 阅读 · 0 评论 -
“中国大学排名定向爬虫”实例
功能描述输入:大学排名URL连接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests&bs4定向爬虫:仅对输入url进行爬取,不扩展爬取程序的结构设计:从网络上获取大学排名网页内容提取网页内容中信息到合适的数据结构利用数据结构展示并输出结果程序具体步骤讲解第一步:使用嵩天老师一直强调的通用代码框架,这个框架可以用在很多爬虫中用来获得HTML文本,并且它通过response.raise_for_status()方法判断返回的状态码是不是200,如果原创 2020-06-14 20:27:37 · 652 阅读 · 0 评论 -
Robots-网络爬虫排除标准协议
Robots Exclusion Standard 网络爬虫排除标准作用:网站告知爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots.txt文件案例:京东的robots协议https://www.jd.com/robots.txtRobosts协议的基本语法:*代表所有/代表根目录其他网站的robots协议robots协议的遵守方方式网络爬虫:自动或人工识别robots.txt文件,再进行内容爬取约束性:robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律原创 2020-06-14 15:00:28 · 697 阅读 · 0 评论 -
HTTP-超文本传输协议
HTTP协议HTTP含义HTTP,hypertext transfer protocol 超文本传输协议HTTP是一个基于“请求与响应”模式的、无状态的应用层协议HTTP协议采用url作为定位网络资源的标识url格式:http://host[:port][path]host:合法的Internet主机域名或IP地址port:端口号,缺省端口为80path:请求资源的路径HTTP url实例:http://www.bit.edu.cnhttp://220.181.111.188/duty原创 2020-06-14 14:46:22 · 248 阅读 · 0 评论 -
python爬虫——网页的简单爬取
python网页爬取python网页爬取通过框架python网页爬取通过框架原创 2020-06-14 14:11:34 · 627 阅读 · 0 评论