自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 爬虫03_股票数据定向爬虫

1.准备工作 功能描述: 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 所用技术:requests、bs4、re、csv 数据网站选择: 新浪股票:http://finance.sina.com.cn/stock/ (动态) 网易股票:http://quotes.money.163.com/ (静态) 凤凰财经:http://app.finance.ifeng.com/list/stock.php (静态) 原则:选择将股票数据静态写在html页面中的,而不是用js动态生成

2020-07-20 19:51:21 381

原创 爬虫03_re库03_淘宝商品比价定向爬虫

1.实例分析 定向爬虫可行性: 访问https://www.taobao.com/robots.txt 得User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: / 这里对根目录进行限制,但我们仅是拿来学习技术实现,不做商业用途且骚扰。 2.程序结构设计 3.代码实现 关于写headers信息: 1.登录淘宝,进入搜索页,F12 2.选择Network,刷新一下,找到最上方以search?开头的文件,右键copy -&

2020-07-20 14:16:16 241

原创 爬虫03_re库02_正则表达式的语法

操作符 语法实例

2020-07-20 11:47:04 108

原创 爬虫03_re库01_函数介绍

1. re.search() 从string全文中寻找 第一个 符合要求的,返回match对象 import re match = re.search(r'[1-9]\d{3}','asd 1000asd82')#匹配连续的4个数字 if match: print(match.group(0)) >>> 1000 2.re.match() 从string的开头开始匹配,返回match对象 import re match = re.match(r'[1-9]\d{4}.

2020-07-20 11:01:18 103

原创 爬虫02_bs4库02_中国大学排名

1.用requests库获取源代码 2.用BeautifulSoup库遍历、分析得到需要数据 3.根据要求使用.format格式化输出 import requests from bs4 import BeautifulSoup url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html" def getHTMLText(url): try: r = requests.get(url, timeout = 20)

2020-07-19 18:03:27 102

原创 爬虫02_bs4库01

BeautifulSoup入门 import requests from bs4 import BeautifulSoup url = 'http://python123.io/ws/demo.html' r = requests.get(url,) demo = r.text soup = BeautifulSoup(demo, 'html.parser') #'html.parser'用于解析html的解释器 #soup = BeautifulSoup(open("D://demo.html"), '

2020-07-19 10:31:04 84

原创 爬虫01_requests库

爬虫01_requests库 1.获取京东商品信息 编码、状态码 问题 import requests def getHTMLText(url): try: r = requests.get(url,timeout=30,headers={'user-agent':'Mozilla/5.0'}) r.raise_for_status() #如果状态码不是200 引发异常 r.encoding = r.apparent_encoding

2020-07-18 22:04:06 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除