- 博客(28)
- 收藏
- 关注
原创 2.信用卡欺诈案例——19.10.7
该案例的主要知识点:1.对于数据集标签分布不均衡条件下的分类方法(下采样,上采样及两者的差异)2.逻辑回归模型的实施(交叉验证,正则化惩罚系数c,判定阈值的设定)3.简单的数据预处理(标准化)4.精度,召回率以及混淆矩阵的概念import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimpor...
2019-10-03 22:07:05 469
原创 [Python爬虫] 7-Charles抓取微信小程序
最近在尝试抓取微信的小程序,用到了Charles,微信小程序的话需要使用HTTPS抓包,网上有些教程内容有步骤的缺失,所以重新整理一份傻瓜式的教程,环境WIN10+IOS,内容基于Roy_Liang前辈:https://www.jianshu.com/p/5539599c7a25:1.Charles安装官网下载安装Charles:https://www.charlesproxy.com/d...
2018-11-13 10:06:27 4185 2
原创 [Python爬虫] 6-Scrapy框架
# I.Scrapy框架架构:# 1)框架概念:写一个爬虫,需要[发送网络请求,数据解析,数据存储,反反爬虫机制(更换ip代理、设置请求头等),异步请求等]这些工作如果每次都要自己从零开始写的话,比较浪费时间,因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率) # 2)框架模块功能:# 1.Engine:核心部分,负责在Spider和It...
2018-10-23 16:57:20 459
原创 [Python爬虫] 5-爬虫进阶(多线程爬虫/动态网页抓取/图形验证码识别)
# I.多线程爬虫# 1)概念:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率# 线程:火车的车厢,进程:火车头## 2)threading模块:专门提供用来做多线程编程的模块# tips:可在打印时设置这两个打印内容: # threading.enumerate():查看当前线程的数量 # threading.current_thread():...
2018-10-15 20:53:59 830
原创 [Python爬虫] 4-数据存储(JSON/CSV/MySQL/MongoDB)
# I.json文件处理# 1)简介:# 1.json是什么:json(JavaScript Object Notation),是一种轻量级的数据交换格式# 2.json有什么数据格式:# i.对象(Python中的字典):{}# ii.数组(Python中的列表):[]# iii.整形,浮点型,布尔类型,null类型# iv.字符串类型(必须使用"...
2018-10-10 17:08:38 379
原创 [Python爬虫] 3-数据解析(lxml/bs4/正则)
# I.Xpath语法和lxml模块# 1)Xpath语法# 1.概念:XPath是一门在XML/HTML文档中查找信息的语言# 2.工具:Chrome的XPath Helper和Firefox的XPath Checker# 3.语法:使用//获取整个页面当中的元素,然后写标签名,然后写谓词进行提取,例://div[@class="abc"]# 4.几个注意点: # i.//子...
2018-09-26 22:43:05 1040
原创 [Python基础] 4-Python练习
1.有四个数字1,2,3,4.能构成多少个互补相同且无重复数字的三位数?分别是什么?for x in range(1,5): for y in range(1,5): for z in range(1,5): if x!=y and x!=z and y!=z: result = x*100+y*10+z ...
2018-09-25 23:08:38 508
原创 [Python爬虫] 2-网络请求
# I.urllib库:最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并且可以保存返回的数据,常用函数如下:# 1)urlopen:抓取内容from urllib import requestresponse = request.urlopen("http://www.baidu.com")print(response.read())# 在函数上ctrl+b跳转...
2018-09-22 17:19:26 612
原创 [Python爬虫] 1-爬虫前奏
I.爬虫概述1)爬虫的实际例子 1.搜索引擎 2.伯乐在线 3.惠惠购物助手 4.数据分析研究(数据冰山知乎专栏) 5.抢票软件2)什么是网络爬虫 通俗理解:模拟人请求网站行为的程序,可以自动请求网页并抓取下来,然后使用一定的规则提取有价值的数据3)通用爬虫和聚焦爬虫 1.通用爬虫:搜索引擎的重要组成部分,将互联网上的网页下载到本地,形成一个互联网内容的景象备份...
2018-09-21 16:00:55 399
原创 [Python数据分析] 7-模型评估
# I.理论部分# 1.模型评估 # 分类模型评估 # 回归模型评估 # 聚类模型评估 # 关联模型评估# I-1.分类模型评估# 1.二分类(正类与负类)# 概念:混淆矩阵 # TP(True Positive):实际为正,预测为正 # FN(False Negative):实际为正,预测为负(漏) # FP(False Positive):实际为负,预测为正(错) ...
2018-09-16 14:44:32 609
原创 [Python数据分析] 6-挖掘建模(无监督学习)
# III.无监督学习编码实现(聚类和关联)# 1.数据集的设定import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as ss# 引入sklearn包中的datasets接口模拟一些点from sklearn.datasets import make_circles,make_moons,make_b...
2018-09-05 17:42:15 465
原创 [Python数据分析] 5-挖掘建模(监督学习)
# I.理论部分:机器学习是过程,模型是这个过程的结果# 1)机器学习和建模# i.学习:通过接收到的数据,归纳提取相同与不同# ii.机器学习:让计算机以数据为基础,进行归纳和总结# iii.模型:数据解释现象的系统# 2)数据集:通常来说各部分占比:训练集6:验证集2:测试集2# i.训练集:训练拟合模型# ii.验证集:通过训练集训练出多个模型后,使用验证集数据纠正或比较预测...
2018-08-29 22:56:20 828
原创 [Python数据分析] 4-预处理理论
I.理论部分数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限而已1)特征工程i.特征使用:数据选择,数据可用性ii.特征获取:特征来源,特征存储iii.特征处理:数据清洗,特征预处理 1.数据清洗:抽样,异常值处理 2.特征预处理:特征选择,特征变换,特征降维,特征延伸iv.特征监控:现有特征,新特征II.编码实现# 1)特征预处理:# 概念:标注(标记,...
2018-08-25 15:35:24 600
原创 [Python基础] 7-Pandas:数据分析库
import pandas as pdimport numpy as npI.数据结构1.Seriess = pd.Series([i * 2 for i in range(1,11)]) # 创建一个10位的序列print(type(s))dates= pd.date_range("20170301", periods=8) # 创建一个从20170301起的往后8位的日期...
2018-08-21 14:56:55 390
原创 [Python基础] 6-Matplotlib:绘图,可视化的必备
import numpy as npimport matplotlib.pyplot as pltI.绘图及设置x = np.linspace(-np.pi,np.pi,256,endpoint=True) # 设定x轴的范围,点的个数,点的个数越多越平滑c = np.cos(x)s = np.sin(x)plt.figure() # 设定画布plt.title("COS &...
2018-08-21 14:54:03 758
原创 [Python基础] 5-Numpy:开源,数据计算的扩展
import numpy as npI.数据结构numpy的底层语言为C,因此nparray的解决了这个问题,nparray是np中最基础的数据结构1.nparraylist = [[1,3,5],[2,4,6]]print(type(list))np_list = np.array(list)print(type(np_list))# 可以用dtype指定数据类型,数据类型有...
2018-08-21 14:52:38 354
原创 [Python数据分析] 3-多因子探索性数据分析与复合分析
I.理论部分1)假设检验与方差检验i.假设检验: 根据一定假设条件由样本推断总体的一种方法,包括了: 1.正态分布检验 2.卡方检验: 实际观测值与理论推断值之间的偏离程度,检验两个因素建有没有联系 3.独立t检验:判断两个平均数的差异是否显著(条件:n<30,总体标准差σ未知的正态分布) 4.方差检验/F检验: 判断该模型中的全部或一部分参数是否适合用...
2018-08-15 11:46:32 1565
原创 [Python数据分析] 2-单因子探索分析与可视化
I.理论部分 1)概念相关:集中趋势:均值,中位数,众数,分位数离中趋势:标准差,方差数据分布:偏度系数,峰度系数,正态分布,三大分布抽样理论:抽样误差(确定样本量)、抽样精度 2)数据分类定类(类别):根据事物离散,无差别属性进行的分类。性别,民族定序(顺序):可以界定数据的大小,但不能测定差值。低中高定距(间隔):可以界定数据大小的同时测定差值,但无绝对零点(乘除比率等...
2018-08-14 14:31:01 1016
原创 [Python数据分析] 1-数据获取
1)数据仓库 I.特点: 1.全部事实的记录 2.部分维度和数据的整理(数据集市) II.数据库与数据仓库的不同 1.数据库面向业务存储,数据仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述) 2.数据库针对应用,数据仓库针对分析 3.数据库组织规范,数据仓库数据量大且杂乱2)监测与抓取直接解析网页、接口、文件...
2018-08-13 16:55:04 721
原创 [Python基础] 2-笨办法学Python3小结III
39.字典的使用小结:字典{}相较于列表[]更加全能一些,可以通过任何东西(不止是数值)找到列表中的元素字典和列表的不同:列表是一些项的有序排列,字典将一些项对应到另外一些项上的数据结构,有点类似数据库了字典用在哪里:各种需要通过某个值去查看另一个值的场合列表用在哪里:专供需要有序排列的数据使用练习:# 创建一个州名及其对应简称的字典statesstates = { ...
2018-08-07 11:43:18 622
原创 [Python基础] 2-笨办法学Python3小结II
34.访问列表元素小结:这节主要讲了列表基数(从0开始)与序数(从1开始)的区别练习:animals = ["bear", "python3.6", "peacock", "kangaroo", "whale", "platypus"]print("位置为1的动物是第二只动物,是python3.6", animals[1])print("第
2018-08-06 17:39:22 397
原创 [Python基础] 1-笨办法学Python3小结I
1.准备工作安装完Python后,选用一个简单的文本编辑器(Atom),一个命令行终端(PowerShell),在文本编辑器上输入指令并保存,并在命令终端行上查看结果,用cd文件的形式逐层选择合适的路径,再运行python ex1.py2.注释和禁用用#禁用代码或做注释3.变量和命名=的作用是将右边的值赋给左边的变量名,==的作用是检查两侧是否相等4.格式化字符串(格式字符...
2018-08-02 22:00:00 1184
原创 [R] 4.基本统计分析
R in action整理1.描述性统计数据使用R自带的mtcars,mpg每加仑行驶英里数,hp马力,wt车重1)连续型变量描述性统计myvars<-c("mpg","hp","wt")①summary():>summary(mtcars[myvars]) mpg hp wt Min. :...
2018-07-17 19:15:52 442
原创 [R] 3.制图及相关
R in action整理**各制图函数可设定参数不尽相同,可用?+function的命令具体查看对应函数可以设置的参数,?barplot **1.制图流程1)数据的输入或数据框的绑定 #attach()函数2)opar<-par(no.readonly=TRUE) #增加新的作图设置参数的设定 #par()函数3)确定是否为多幅图形的组合par(mfrow=...
2018-07-16 10:45:45 360
原创 [R] 2.高级数据管理
R in action整理1.数值处理函数1)数学函数abs(x),sqrt(x),ceiling(x),floor(x),trunc(x)取整,round(x,digits=n)舍入为n位的小数,signif(x,digits=n)舍入有效位数为n的数2)统计函数mean(y),median(y),sd(y),var(y),,sum(y),min(y),max(y),ra...
2018-07-13 17:30:31 286
原创 [R] 1.基本数据管理
R in action整理,示例manager<-c(1,2,3,4,5)date<-c('10/24/08','10/28/08','10/1/08','10/12/08','5/1/09')country<-c('US','US','UK','UK','UK')gender<-c('M','F','F','M','F')age<-c(32...
2018-07-12 16:34:55 565
原创 [Mysql] 2.存储过程练习
存储过程实验一、实验要求:1. 理解存储过程的概念2. 掌握存储过程的语法格式、使用方法3. 掌握存储过程的创建、执行 二、实验前提:Create table student(Id varchar(255), #学号Name varchar(255), #姓名Roomid varchar(255), #班级Sex char(1), #性...
2018-07-11 09:38:09 8990
原创 [Mysql] 1.MySQL查询练习
2019.11.21更新:重新看了下之前的东西,发现几个错误,做一个更正最近在初学MySQL,在网上找相关查询语句练习的时候发现一些答案有一些问题,这边做出了更正,当然也不能保证完全正确,有更好的写法也欢迎交流。:-)前提:设有一数据库包括:学生表(Student)、课程表(Course)、成绩表(Score)、教师信息表(Teacher)#以下的语句可以直接复制使用#学生表...
2018-06-25 22:55:02 695
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人