python
twetwe
Caicaptain
善心善行,不忘初心
展开
-
Python-爬虫从入门到入门
最近学习了一个Python爬虫课程,跟着课程做了点笔记。第一系列 RequestsPython——爬虫系列入门指南Python-request库用法Python-基本获取京东、百度、亚马逊网页数据、爬取图片第二系列 数据解析Python-基本爬取协议Python-各类库统计和基本使用Python-基本爬取的三大格式解析(xml、json、yamal)Python-爬虫数据解析Python-BeautifulSoup用法详解第三系列 正则表达式Python-正则表达式入门Python原创 2020-06-09 18:40:33 · 156 阅读 · 0 评论 -
Python-简单使用Scrapy爬取股票步骤
原创 2020-06-09 18:22:49 · 226 阅读 · 0 评论 -
Python-Scrapy详细参数解析
原创 2020-06-09 18:16:00 · 298 阅读 · 0 评论 -
Python-yield减少资源占用
yield生成器,如果是使用生成器,下次进来还是从yield开始进行,不必从函数从头开始def gen(n): for i in range(n): yield i**2for i in gen(5): print(i, " ", end="") #生成器写法 0 1 4 9 16def square(n): ls = [i**2 for i in range(n)] return lsfor i in square(5):原创 2020-06-09 18:13:04 · 114 阅读 · 0 评论 -
Python-第一个scrapy程序
scrapy常用指令创建一个Scrapy工程1.命令行输入该指令2.3.新建一个爬虫文件demo.pyimport scrapyclass DemoSpider(scrapy.Spider): name = "demo" start_urls = ['http://python123.io/ws/demo.html'] def parse(self, response): fname = response.url.split('/')[-1]原创 2020-06-09 18:04:27 · 130 阅读 · 0 评论 -
Python-爬虫技术路线对比
requests和scrapy区别原创 2020-06-09 17:22:39 · 230 阅读 · 0 评论 -
Python-Scrapy爬坑
简介scrapy是一个爬虫框架,是一个软件结构和功能件集合。以下是框架的结构spiders是输入itempipelines是输出以下是各个结构的作用安装pip3 install scrapyscrapy -h # 测试安装是否成功原创 2020-06-09 17:20:56 · 104 阅读 · 1 评论 -
Python-爬虫技术获取股票信息
一、项目介绍目标:获取上交所和深交所所有股票的名称和交易信息,保存到文件中技术路线:使用requests-bs4-re网站选择:没有robots协议限制;股票信息静态存在于HTML页面中,非JS代码生成结构设计:从东方财富网获取股票列表根据股票列表逐个到百度股票获取个股信息将结果存在文件中二、获取解析通过查看源码的方式定位到需要的字段三、源码#(未测试)import requestsimport refrom bs4 import BeautifulSoupimport原创 2020-06-09 17:14:58 · 593 阅读 · 0 评论 -
Python-实现根据关键词获取网页内容
一、项目介绍获取TB网页的一些信息(仅进行教育目的)比如我们要通过关键字获取TB界面上的一些信息。通过确认可以发现请求为:https://s.taobao.com/search?q=书包&s=0 #q代表关键字,显示第一页https://s.taobao.com/search?q=书包&s=44 #显示第二页,每一个44个二、获取解析使用的解析方法有多种,一种使用BeatifulSoup库,一种使用正则表达式直接匹配出来。我们这里使用正则表达式。通过查看源码可以看原创 2020-06-09 16:43:21 · 4007 阅读 · 0 评论 -
Python-实现简单爬取大学排名
一、实现功能(仅适合教育目的爬取)从http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html获取大学排名,显示出来。二、获取解析通过浏览器访问该网址,右击网页,查看获取信息。会发现主要内容在tbody下面,td对应值。 <td><div align="left">清华大学</div></td> <td>北京市</td><td>95.9</td&原创 2020-06-09 15:59:14 · 501 阅读 · 0 评论 -
Python-正则表达式库RE的使用
Re库用法实际使用import reprint("sub--------",re.sub(r'[1-9]\d{5}', ':zipcode', 'BIT100081 TSU100084'))print("------------------------finditer")for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084'): if m: print(m.group(0))print("-------原创 2020-06-05 16:49:04 · 168 阅读 · 0 评论 -
Python-正则表达式入门
正则表达式的简介正则表达式表达文本类型的特征(病毒、入侵等)同时朝招和替换一组字符串匹配字符串的全部或部分正则表达式的使用以下是三种匹配正则表达式总结原创 2020-06-05 16:07:20 · 92 阅读 · 0 评论 -
Python-BeautifulSoup用法详解
import requestsimport rer = requests.get("http://python123.io/ws/demo.html")demo = r.textfrom bs4 import BeautifulSoupsoup = BeautifulSoup(demo, "html.parser")print(soup.prettify())print("----------------打印匹配b的标签名-------------------------")for ta原创 2020-06-05 16:02:25 · 152 阅读 · 0 评论 -
Python-爬虫数据解析
安装从网页上爬取数据,使用beautifulsoup4来解析数据,安装beautifulsoup4pip3 install beautifulsoup4使用测试,格式化显示import requestsr = requests.get("http://python123.io/ws/demo.html")print(r.text)print("----------------------------------------------")demo = r.textfrom bs4 i原创 2020-06-05 15:49:05 · 169 阅读 · 0 评论 -
Python-修改excel的某一列
import xlrd #导入模块from xlutils.copy import copy #导入copy模块rb = xlrd.open_workbook('111.xls', formatting_info=True) #打开weng.xls文件,不修改原有样式table = rb.sheets()[0]wb = copy(rb) #利用xlutils.copy下的cop.原创 2020-06-03 11:11:47 · 5062 阅读 · 0 评论 -
Python-基本爬取的三大格式解析(xml、json、yamal)
讲解Python-基本爬取的三大格式解析原创 2020-06-03 10:45:12 · 559 阅读 · 0 评论 -
Python-基本爬取格式解析(HTML解析)
讲解Python-基本爬取格式解析(HTML解析)原创 2020-06-03 10:41:03 · 274 阅读 · 0 评论 -
Python-各类库统计和基本使用
讲解Python-各类库统计和基本使用原创 2020-06-03 10:40:08 · 237 阅读 · 0 评论 -
Python-基本爬取协议
避免面向监狱编程原创 2020-06-03 10:38:41 · 431 阅读 · 0 评论 -
Python-xls数据操作
#新建写入import xlwt #导入模块wb = xlwt.Workbook(encoding = 'ascii') #创建新的Excel(新的workbook),建议还是用ascii编码ws = wb.add_sheet('weng') #创建新的表单wengws.write(0, 0, label = 'hello') #在(0,0)加入hellows.write(0, 1, label =原创 2020-06-03 10:37:07 · 176 阅读 · 0 评论 -
Python-基本爬取数据解析
讲解Python-基本爬取数据解析原创 2020-06-03 10:35:12 · 174 阅读 · 0 评论 -
Python-基本获取京东、百度、亚马逊网页数据、爬取图片、
讲解Python-基本爬取网页内容原创 2020-06-03 10:33:43 · 219 阅读 · 0 评论 -
Python语法
Python3 迭代器与生成器生成器yield,代表next继续从当前地方执行def test(a): while True: a = a + 1 yield amyclass = test(0)for x in range(2): print(next(myclass))作用域函数1.lambda#!/usr/bin/python3 # 可写函数说明sum = lambda arg1, arg2: arg1 + arg2 #原创 2020-06-02 16:08:03 · 103 阅读 · 0 评论 -
Python基本语法
一、基本语法1.循环语句whilea, b = 0, 1while b < 10: print(b, end=',') a, b = b, a+bfor、pass(只是一个占位)#!/usr/bin/python3 var1 = 100if var1: pass print ("1 - if 表达式条件为 true") print (var1) var2 = 0if var2: print ("2 - if 表达式条件为 true"原创 2020-06-02 14:59:02 · 136 阅读 · 0 评论 -
Python基本类型操作
一、标准数据类型1.所有类型不可变数据(3 个):Number(数字)、String(字符串)、Tuple(元组)可变数据(3 个):List(列表)、Dictionary(字典)、Set(集合)Number(数字): int、float、bool、complex(复数)String(字符串):1.#普通strstr = 'Runoob'str1 = '''... //多行....'''print (str[0:-1]) # 输出第一个到倒数第二个的所有字符2.#原创 2020-06-02 14:36:54 · 131 阅读 · 0 评论 -
Python-request库用法
一、HTTP详解二、Request主要方法1、基本方法简介总共有七个方法,这七个方法最后都是使用requests.request()实现。2、Request返回r.encoding是从头部获取的内容编码方式(r.text的编码)r.apparent_encoding 是根据内容分析出来的,两个都是为了表示内容编码方式(这个可能比较准确)3、Request异常4、基本方法的十三个参数request.request(method, url, **kwargs)原创 2020-06-02 01:12:56 · 2114 阅读 · 0 评论 -
Python——爬虫系列入门指南
一、IDE的选择和安装软件名称特点IDLEpython自带、支持300行以下Sublime Text专业编程、调试一般Pycharm简单方便SPYder专业的科学计算和数据分析二、安装PYTHON安装记得添加到path里面win10-python安装 python下载地址requests库安装管理员权限打开cmd输入:#pip install requests //如果出现问题:安装requests库时,输入:pip install原创 2020-06-01 23:04:34 · 152 阅读 · 0 评论