2020年09月_gemoumou

12月 11月 10月 09月 08月

原创机器学习-特征处理/归一化/标准化/降维03

归一化from sklearn.preprocessing import MinMaxScalerdef mm(): # 归一化处理 mm = MinMaxScaler() data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]]) print(data)if __name__=='__main__': mm()标准化from sklearn.preprocessing i

2020-09-30 00:41:02 823

原创机器学习-特征抽取02

特征抽取是对文本等数据进行值化，特征值化是为了让计算机能够更好的去理解数据。sklearn特征抽取apisklearn.feature_extraction字典特征抽取（对字典数据进行特征值化）from sklearn.feature_extraction import DictVectorizer# 字典特征抽取from sklearn.feature_extraction import DictVectorizerdict = DictVectorizer(sparse=Fal

2020-09-27 23:42:54 143

原创机器学习-概述01

机器学习的概述什么是机器学习机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。为什么需要机器学习解放生产力：智能客户 — 不知疲倦进行24小时作业解决专业问题： ET医疗 ---- 帮助看病提供社会便利：如杭州的城市大脑机器学习在各领域的价值领域：医疗，航空，教育，物流，电商…目的：让机器学习程序替换手动的步骤，减少企业的成本也提高企业的效率例子：汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册...

2020-09-26 01:46:29 169

原创数据分析学习03-pandas

简介Pandas 是 Python 的外部模块，它非常像 Excel，提供了分析数据的功能。它提供了两个数据类型 Series 和 DataFrame。什么是 Series？Series 是 Pandas 提供的一种数据类型，你可以把它想象成 Excel 的一行或一列。（一维，带标签数组）Series对象本质上由两个数组组成（index索引，value值）什么是 DataFrame？DataFrame 是 Pandas 提供的一种数据类型，你可以把它想象成 Excel 的表格。（二维

2020-09-18 00:20:30 217

原创数据分析学习02-numpy

简介NumPy是Python中科学计算的基础包。它是一个Python库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组快速操作的各种API，有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数，基本统计运算和随机模拟等等。使用我们仅需要简单的通过import numpy as np就可以使用numpy了。为什么要用numpy？如果我们希望两个列表对应项相加，则我们需要这样做，使用Python列表这样的代码是冗余的，而使用numpy则大大减少了代码的冗余。

2020-09-11 03:01:02 172

原创 24-移动端app数据爬取

移动端数据爬取安装fiddler手机端安装fiddler证书修改手机代理（改成电脑ip，端口设置为fiddler的端口）上述设置完成后我们就可以使用fiddler抓取手机端的数据了实战案例：抖音APP数据爬取为了方便操作我们使用向日葵把手机屏幕投屏到电脑上...

2020-09-09 23:48:47 769

原创 python基础-18-闭包

闭包：只能存在嵌套的函数中封闭的东西：保证数据安全内层函数对外层函数非全局变量的引用（使用），就会形成闭包被引用的全局变量被称作自由变量，这个自由变量会与内层函数产生一个绑定关系自由变量不会再内存中消失def outer(): def inner(): #被执行的时机是不确定的 print ("你好") return inner # 把函数作为返回值返回ret = outer()ret() #你好def outer(): a = 20

2020-09-06 01:14:01 143

原创 python基础-17-匿名函数

匿名函数：一句话函数，比较简单的函数# 普通函数def func(a,b): return a+bret = func(1,2)print (ret) # 3# 匿名函数：一句话函数，比较简单的函数fn = lambda a,b:a + b #lambda 匿名函数ret = fn(1,2)print (ret) # 3# 接受一个可切片的数据，返回索引为 0-2的对应的元素（元组形式）func2 = lambda a:(a[0],a[2]) # (11, 33

2020-09-06 00:41:29 88

原创 python基础-16-内置函数

python 提供了68个内置函数作用域locals ：函数会以字典的类型返回当前位置的全部局部变量。globals：函数以字典的类型返回全部全局变量。a = 1b = 2print(locals())print(globals())# 这两个一样，因为是在全局执行的。def func(argv): c = 2 print(locals()) print(globals())func(3)#这两个不一样，locals() {'argv': 3, 'c':

2020-09-06 00:26:01 142

原创 python基础-15-列表推导式

列表推导式：用一行代码构建一个比较复杂有规律的列表lst = []for i in range(0,10,2): # 循环0-10里面所有数字每次递增2个数字 lst.append(i) # 把 i 追加进 lst空列表print (lst) # [0, 2, 4, 6, 8]# 生成一个列表，从gpc love1 una 开始装，一直到99.lst = ["gpc love%s una"%i for i in range (100)]print (lst)# #['gpc

2020-09-05 23:40:00 454

原创 python基础-14-生成器

生成器:生成器与迭代器可以看成一种，生成器的本质就是迭代器。唯一区别，生成器是我们自己用python代码构建的数据结构，迭代器是系统提供的或者转化得来的。获取生成器的三种方式：生成器函数生成器表达式python内部提供的一些生成器函数获得生成器def func(): # 普通函数 print(111) print(222) return 3ret = func()print(ret)# 111# 222# 3def func(): #生成器函数.

2020-09-05 23:33:44 93

原创 23-爬虫之scrapy框架增量式实时监测数据爬取10

增量式概念：监测网站数据更新的情况，以便于爬取到最新更新出来的数据实现核心：去重实战中去重的方式：记录表记录表需要记录的是爬取过的相关数据爬取过的相关信息：url，标题，等唯一标识（我们使用每一部电影详情页的url作为标识）只需要使用某一组数据，改组数据如果可以作为网站唯一标识信息即可，只要可以表示网站内容中唯一标识的数据我们统称为数据指纹。去重的方式对应的记录表：python中的set集合（不可行）set集合无法持久化存储redis中的set集合就可以因为可

2020-09-05 03:32:17 1002

原创 22-爬虫之scrapy框架分布式09

分布式实现分布式的方式：scrapy+redis（scrapy结合着scrapy-redis组件）原生的scrapy框架是无法实现分布式的什么是分布式需要搭建一个分布式机群，然后让机群中的每一台电脑执行同一组程序，让其对同一组资源进行联合且分布的数据爬取。因调度器，管道无法被分布式机群共享所以原生架构scrapy无法实现分布式使用scrapy-redis组件可以给原生的scrapy框架提供共享管道和调度器实现分布式pip install scrapy-redis实现流

2020-09-03 23:40:02 190

原创 21-爬虫之scrapy框架selenium的使用08

selenium在scrapy中的使用案例：爬取网易新闻中，国内，国际，军事，航空，无人机这五个板块下的所有新闻数据（标题+内容）基本使用创建一个爬虫工程：scrapy startproject proName进入工程创建一个基于CrawlSpider的爬虫文件scrapy genspider spiderName www.xxx.com执行工程：scrapy crawl spiderName分析首页非动态加载的数据在首页爬取板块对应的url每一个板块对应的页面中的新闻是动态加

2020-09-02 01:47:42 158

原创 20-爬虫之scrapy框架CrawlSpider07

CrawlSpider是Spider的一个子类，Spider是爬虫文件中的爬虫父类之类的功能一定是对于父类作用：被作用于专业实现全站数据爬取将一个页面下的所有页码对应的数据进行爬取基本使用创建一个爬虫工程：scrapy startproject proName进入工程创建一个基于CrawlSpider的爬虫文件scrapy genspider -t crawl spiderName www.xxx.com执行工程：scrapy crawl spiderName

2020-09-01 22:34:02 224

原创 19-爬虫之scrapy框架大文件下载06

大文件下载创建一个爬虫工程：scrapy startproject proName进入工程目录创建爬虫源文件：scrapy genspider spiderName www.xxx.com执行工程：scrapy crawl spiderName大文件数据是在管道中请求到的下载管道类是scrapy封装好的直接调用即可：from scrapy.pipelines.images import ImagesPipeline # 该管道提供数据下载功能（图片视频音频皆可使用该类）重写管道类的三个方法：

2020-09-01 02:16:59 456 1

Selenium （WEB自动化工具/爬虫）

Selenium （WEB自动化工具/爬虫）：本文包含WEB自动化，以及爬虫使用方法本文详细介绍了Selenium Python版本的自动化测试方法和实践，通过本文学习你将掌握如下内容：Selenium 测试环境搭建单元测试、生成测试报告、定位元素、WebDriver属性和方法、WebElement属性和方法、操作form表单、操作下拉列表、处理等待、远程测试、Selenium Grid、鼠标事件、键盘事件、调用js、屏幕截图、Selenium IDE、文件上传、设置代理、无界面运行、参数化测试、数据驱动的测试DDT等。

2020-08-15

selenium学习完结散花.docx

一、根据tag名、id、class选择元素二、根据css选择元素三、frame元素切换/窗口切换, frame 或者iframe元素内部会包含一个被嵌入的另一份html文档四、selenium 选取选择框五、更多操作技巧六、Xpath 选择器

2020-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人