爬虫
文章平均质量分 77
不多余的星星
这个作者很懒,什么都没留下…
展开
-
爬虫实例(一)
1.京东商品页面的爬取https://item.jd.com/2967929.html代码:import requestsurl = "https://item.jd.com/2967929.html"try: r = requests.get(url) r.raise_for_status() r.encodint = r.apparent_encoding p原创 2017-08-17 10:01:40 · 1127 阅读 · 0 评论 -
Beautiful Soup 库入门
一、概念Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据。Beautiful Soup 库官网二、Beautiful Soup库的安装Windows平台: “以管理员身份运行”cmd执行p原创 2017-08-19 18:48:49 · 540 阅读 · 0 评论 -
爬虫实例(三)——股票数据定向爬虫
功能描述目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests‐bs4‐re候选数据网站的选择选取原则:股票信息静态存在于HTML页面中,非js代码生成 没有Robots协议限制 选取方法:浏览器F12,源代码查看等 选取心态:不要纠结于某个网站,多找信息源尝试具体选取过程请看课程视频:北北京理工大学公开课《Python网络爬虫与信息提取》数据网站原创 2017-09-09 11:03:46 · 4973 阅读 · 3 评论 -
信息标记与提取方法
一、信息标记二、信息标记的三种形式信息标记的形式有:XML, JSON, YAML1) XML:2) JSON:3) YAML:三种信息标记形式的比较四、信息提取的一般方法实例:提取 HTML 中所有 URL 链接。(HTML 文本见代码) 思路:1) 搜索到所有 a 标签 2) 解析 a 标签格式,提取属性 href 后的链接内容代码:from bs4 import Bea原创 2017-08-27 20:23:54 · 645 阅读 · 0 评论 -
python系列之re模块(正则表达式)
一、正则表达式正则表达式的优势:简洁两个例子:正则表达式是用来简洁表达一组字符串的表达式; 正则表达式是一种通用的字符串表达框架; 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具; 正则表达式可以用来判断某字符串的特征归属。正则表达式的应用:二、正则表达式的语法正则表达式语法由字符和操作符构成。在下面的经典实例中,“正整数形式的字符串”开头可能是 0,觉得开头不能为 0,不过它应该原创 2017-08-22 22:04:29 · 518 阅读 · 0 评论 -
爬虫实例(二)——中国大学排名爬虫
本文是官途爬取 2016 年中国大学排名的,要爬取的网址: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html假如我们要爬取的信息是前 20 名大学的大学名称、排名及得分,查看源代码,如下图,可以发现排名的全部相关信息在标签 <tbody><tbody> 下的 <tr><tr> 中,而具体的名称、排名、得分等信息则在标签 <td><td> 中原创 2017-09-07 16:55:34 · 4298 阅读 · 2 评论