![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 53
ccszbd
这个作者很懒,什么都没留下…
展开
-
【python爬虫学习笔记】02 requests库入门
1.requests库的7个主要方法 但在爬虫中通常只会使用到head和get方法,其他方法只做了解即可 requests库主要方法解析 requests.request(method,url,**kwargs) *requests.get(urlparams=None,**kwargs) requests.head(url,*kwargs) requests.post(url,data=Non...原创 2018-12-04 16:53:05 · 197 阅读 · 0 评论 -
【python爬虫学习笔记】05 利用requests-bs4的大学排名定向爬虫的实例
功能描述 输入 大学排名URL链接 输出 大学排名信息的屏幕输出(排名,大学名称,总分) 程序的结构设计 步骤1:从网络上获取大学排名网页内容 getHTMLText() 步骤2:提取网页内容中信息到合适的数据结构 fillUnivLisr() 步骤3:利用数据结构展示并输出结果 printUnivList() 完整代码 import requests i...原创 2018-12-10 21:33:00 · 237 阅读 · 0 评论 -
【python爬虫实例】爬取豆瓣图书及信息
# -*- coding: UTF-8 -*- import sys import time import urllib import requests import numpy as np from bs4 import BeautifulSoup from openpyxl import Workbook # Some User Agents hds = [{'User-Agent': ...原创 2018-12-14 20:10:05 · 6887 阅读 · 1 评论 -
【python爬虫学习笔记】09 Scrapy爬虫的数据类型及yield关键字
Yield关键字 yield<—>生成器 生成器是一个不断产生值的函数 包含yield语句的函数是一个生成器 生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值 具体使用: class DemoSpider(scrapy.Spider): name = 'demo' def start_requests(self): urls=...原创 2018-12-14 19:57:23 · 357 阅读 · 0 评论 -
【python爬虫学习笔记】08 Scrapy爬虫框架结构及常用命令
Scrapy爬虫的5+2结构 Engine 不需要用户修改 控制所有模块之间的数据流 根据条件触发事件 Downloader 不需要用户修改 根据请求下载网页 Scheduler 不需要用户修改 对所有爬取请求进行调度管理 Downloader Middleware 用户可以编写配置代码 目的:实施Engine、Scheduler和Downloader之间进行用户可配置的控制 功能:修改、丢弃...原创 2018-12-14 19:47:46 · 404 阅读 · 0 评论 -
【python爬虫学习笔记】07 股票数据定向爬虫实例
功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 候选数据网站的选择 新浪股票:http://finance.sina.com.cn/stock/ 百度股票:http://gupiao.baidu.com/stock/ 东方财富网:http://quote.eastmoney.com/stocklist.html 选取...原创 2018-12-13 21:22:11 · 408 阅读 · 0 评论 -
【python爬虫学习笔记】03 requests库爬取的简单实例以及robots协议
1. 爬取京东手机信息 import requests def getHTMLText(url): try: r = requests.get(url,timeout=30) #如果状态不是200,引发HTTPError异常 r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[:1000]) ...原创 2018-12-05 21:38:07 · 820 阅读 · 0 评论 -
【python爬虫学习笔记】04 BeautifulSoup库入门及信息的标记方法
1.BeautifulSoup库概述 BeautifulSoup库的基本介绍 BeautifulSoup库相当于一个标签树,也可称为是一个HTML文档,这个库对应于一个HTML/XML文档的全部内容。 bs4库的基本元素 Tag,Name,Attributes,NavigableString,Comment 2.基于bs4库的HTML内容的遍历方法 1. 标签树的下行遍历 标签用法 注释 ...原创 2018-12-07 21:33:09 · 207 阅读 · 0 评论 -
【python爬虫学习笔记】01 python网络爬虫与信息提取
来自于MOOC网的北京理工大学嵩天老师的python爬虫与信息提取的课程笔记,同步学习,持续更新 python网络爬虫与信息提取 课程分为以下6个部分 requests 自动爬取html页面,自动网络请求提交 robots.txt 网络爬虫排除标准 beautiful soup 解析html页面 projects 实战项目A/B Re 正则表达式详解,提取页面关键信息 Sc...原创 2018-12-04 17:01:21 · 329 阅读 · 0 评论 -
【python爬虫学习笔记】06 正则表达式以及Re库入门
正则表达式及使用 正则表达式是用来简洁表达一组字符串的表达式 优势:简洁 编译:将符合正则表达式语法的字符串转换成正则表达式特征 正则表达式在文本处理中的应用 表达文本类型的特征(病毒、入侵等) 同时查找或替换一组字符串 匹配字符串的部分或全部等 正则表达式的常用操作符 实例 正则表达式 对应字符串 P(Y YT PYTHON+ ‘PYTHON’,‘PYTHONN’,‘PY...原创 2018-12-10 21:56:42 · 164 阅读 · 0 评论