- 博客(110)
- 收藏
- 关注
原创 7、数据分析--贝叶斯案例
贝叶斯案例import pandas as pdimport jiebafrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.decomposition import TruncatedSVDfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import BernoulliNBfrom sklearn.
2021-07-24 04:53:47 472
原创 6、数据分析--纪录片播放量预测
纪录片播放量预测实际项目import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_split, GridSearchCVfrom sklearn.linear_model import LinearRegression,Ridgefrom sklearn.ensemble import Ra
2021-07-24 03:22:00 891
原创 5、数据分析--洛杉矶房价预测
一、检视原数据集读入数据并检测import numpy as npimport pandas as pdfile=open("data/housing/housing.csv")train_df=pd.read_csv(file)train_df.head()longitudelatitudehousing_median_agetotal_roomstotal_bedroomspopulationhouseholdsmedian_incomemedian_house
2021-07-23 04:42:26 584
原创 4、数据分析--航空价值分析
背景介绍背景处理 准确的客户分类的结果是企业优化营销资源的重要依据,该课程利用航空公司提供的数据,利用 Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客 户,从而对不同价值的客户类别提供个性化服务,指定相应的营销策略。 该案例不仅适用于客户营销手段,还可以适用于多种商业坏境,例如:移动运营商维护,游戏会员 维护,超市会员维护等场景学习目标 熟悉客户价值分析的步骤和流程 通过该流程掌握处理原理 了解RFM、LRFMC模型的基本原理 如果
2021-07-22 23:19:15 775
原创 3、数据分析--聚类项目分析
字段含义类型interested_travel旅行偏好二分类computer_owner是否有家用电脑二分类age估计的年龄连续home_value房产价格连续loan_ratio贷款比率连续risk_score风险分数连续marital婚姻状况估计连续interested_sport运动偏好连续HH_grandparent户主祖父母是否健在估计连续HH_dieting户主节食偏好连续H...
2021-07-22 19:48:00 345
原创 2、数据分析--泰坦尼克数据字段分析
数据字段分析:分析各个标签是否与生还有关系,表面看起来没用,如果进行”数据挖掘“发现内部现象有用的话,还是要进行保留的VariableDefinitionKey中文survival(幸存与否作标签,其他作特征)Survival0 = No, 1 = Yes是否生还(0:没有生还,1:生还)pclassTicket class1 = 1st, 2 = 2nd, 3 = 3rd票类别分三等,1等、2等、3等sexSex性别AgeAge in ye
2021-07-22 19:14:27 175
原创 1、数据分析--共享单车使用量预测
数据字段分析列名desc中文描述datetimehourly date + timestamp小时日期 和时间戳season1 = spring, 2 = summer, 3 = fall, 4 = winter1:春天 2:夏天 3:秋天 4:冬天holidaywhether the day is considered a holiday当天是否是节假日workingdaywhether the day is neither a weekend no
2021-07-22 04:43:51 1313 1
原创 20、数据分析直观处理
数据分析概述: 机器学习、数据分析、数据挖掘的区别与联系: 数据分析:数据分析是指用适当的统计分析方法对收集的大量数据进行分析,并提取有用的信息,以及形成结论,从而对数据进行详细的研究和概括过程。在实际工作中,数据分析可帮助人们做出判断;数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。 数据挖掘(分析出隐藏的信息,每个字段进行分析操作):一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。 机器
2021-07-21 17:45:34 262
原创 14、EM算法实战
高斯混合模型的底层代码import mathimport copyimport numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D(3D建模)生成数据方法将数据点X使用全局变量处理,方便后续程序调用将均值mu设置为全局变量,进行随机初始化,方便后面计算期望将期望excep设置为全局变量,方便后续计算将混合系数设置为全局变量,方便后续计算def generate_data(s
2021-07-21 03:30:12 347
原创 19、数据分析--EM算法
概率密度函数 对于一维实随机变量X,设它的累积分布函数是FX(x)。如果存在可测函数fX(x),满足:那么X是一个连续型随机变量,并且fX(x)是它的概率密度函数。 密度函数f(x)具有下列性质: f(x)≥ 0 任意一点(两点围成的面积才叫概率,这里的每一点都是指从图像上的点垂直到x轴上能作垂线的点)概率密度大于等于0(概率非负) J f(x) d(x)= 1 函数线与坐标轴围成的总面积为1(必然条件) 概率上的点不能代表概率的大小,只能选取一个区间,区间内的面积即概率相
2021-07-21 00:23:46 684
原创 18、数据分析--聚类算法
聚类算法属于无监督的一种算法,不需要标签就可以进行处理0K -means家族(K-means算法是聚类算法中最常用的) 给定一个有M个对象的数据集,构建一个具有k个簇(组)的模型,其中k<=M。满足以下条件: 每个簇至少包含一个对象 每个对象属于且仅属于一个簇 将满足上述条件的k个簇成为一个合理的聚类划分 基本思想:对于给定的类别数目k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使的 每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了),(K不是一次
2021-07-18 15:43:39 2160 5
原创 13、支持向量机实战
分类 sklearn.svm.SVC(C=1.0, kernel=‘rbf’, degree=3, gamma=‘auto’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None) C:C-SVC的惩罚参数C?默认值是1.
2021-07-16 21:37:14 124
原创 17、数据分析--支持向量机
支持向量机是处理回归问题的可泛化性能最好的,解决过拟合,机器学习中算法精度也是最高的相关数学知识 梯度下降 梯度下降法(Gradient Descent, GD)常用于求解无约束(不跟其他的位置比最近,而是只自己比什么时候数值最小)情况下凸函数(Convex Function)的极小 值,是一种迭代类型的算法,因为凸函数只有一个极值点,故求解出来的极小值点就是函数的最小 值点 最优化问题一般是指对于某一个函数而言,求解在其指定作用域上的全局最小值问题,一般分为以 下三种情况(备注:以下几种
2021-07-16 21:10:45 593
原创 12、朴素贝叶斯实战
文本数据的分类import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.naive_bayes import MultinomialNB #多项式朴素贝叶斯# 正则匹配,a-z,A-Z所有中文tfCoder = CountVectorizer(token_pattern="[a-zA-Z|\u4e00-\u9fa5]+") # TF模型X = df["words"]Y
2021-07-16 14:19:26 138
原创 16、数据分析--朴素贝叶斯
贝叶斯公式概率可以理解为某一件事情发生的可能性,记为 P(A)我们可以使用文氏图的方式进行表示为: 其中为必然事件 通过这个情况,我们其实可以将P(A)修改为P(A| Ω)= pA/pΠ 代表Ω条件下A发生的概率联合概率 :P(AB)以Π为底 如果想要求出AB两个事情同时发生的概率,就需要 计算他们的交集,概率记为P(AB)条件概率:P(AB)以p(A)为底 设A,B为任意两个事件,若P(A)>0,我们称在已知事件A发生的条件下,事件B发生的概率为条件概率, 记为
2021-07-16 14:03:06 584
原创 11、集成学习(二)实战
API解析AdaBoost算法(需要添加缩减系数,为了解决出现异常数据造成无穷放大从而导致出错)参数AdaBoostClassifierAdaBoostRegressorbase_estimator 弱分类器对象,默认为CART分类树DecisionTreeClassifier; 弱回归器对象,默认为CART回归树DecisionTreeRegressor;algorithm SAMME和SAMME.R: SAMME表示构建过程中使用样本集分类效果作为弱分类器的权重;SAMME
2021-07-12 19:12:20 185 2
原创 15、数据分析--集成学习(二)
Boosting集成算法(实现的方式有很多) Boosting(就像流水线一样的工作形式)通过串行地构造多个个体分类器,然后以一定的方式将他们组合 成一个强学习器每个个体学习器训练数据集后都把总结给到强学习器和下一个个体学习器 Boosting在集成学习领域是非常耀眼的一类方法,其中又以AdaBoost和GBDT最为突出 AdaBoost是Adaptive Boosting的简称,在人脸识别(在深度学习成型前用Adaboost最多)和处理不均匀数据相关领域得到广泛引用; GBDT 更是被称
2021-07-12 15:38:50 582 3
原创 10、集成学习(一)实战
随机森林API参数 RandomForestClassifier RandomForestRegrcriterion 指定划分标准,默认为gini,不支持其它参数 指定划分标准,可选"mse”和"mae";默认mseloss 不支持 指定误差的计算方式,可选参数”linear" , “square”,“exponential”,默认为"linear";一般不用改动n_estimators 最大迭代次数,也就是最多允许的决策树的数目,值过小可能会导致欠拟合,值
2021-07-12 01:16:38 177
原创 14、数据分析--集成学习(一)
集成学习(核心算法,算法中精度最高): 概念: 将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)(弱学习器准确率不高,整合起来能得到一个强的学习器,准确率也会提高) 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升 常见的集成学习思想有:Bagging Boosting Stacking 作用
2021-07-11 23:08:38 507 1
原创 9、决策树实战
决策树回归(引入L2正则化比较,突出神坛级算法决策树):import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.linear_model import Ridgefrom sklearn.metrics import mean_squared_error, r2_scorefrom sklearn.
2021-04-20 18:47:13 314 1
原创 13、数据分析--决策树
决策树可视化 库的下载和安装https://www.jianshu.com/p/4f28335ee2691.安装GraphViz2.安装graphviz的python库决策树简介 计算机中树的数据结构,第一层的节点又叫根节点,最后最下面的一层叫叶节点,其他的是属性节点(内部节点) 直观理解(决策树和KNN算法非常相似,所以也是能进行处理分类和回归的问题): 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支(上级分支到下级分支的过程)代表一个测试输出,
2021-04-20 18:20:59 985
原创 8、K近邻算法实战
K近邻算法调用参数: weights:决策规则 样本权重,可选参数:uniform(等权重)、distance(权重和距离成反比,越近影响越强);默认为uniform n_neighbors(相当于K的选择): 邻近数目,默认为5 algorithm(实现方法): 计算方式,默认为auto(自动选择,会选择到适合的方法),可选参数:auto、ball_tree、kd_tree、brute(蛮力法);推荐选择kd_tree leaf_size(叶节点数量)
2021-04-13 01:54:03 294
原创 12、数据分析--K近邻算法
距离度量(特性相同导致差距很小): 闵可夫斯基距离(用来处理分类): 假设有两个样本点x1,x2,两者间的闵可夫斯基距离Lp中有 当p=1时,称为曼哈顿距离(把所有向量中每个维度的差的绝对值求和) 当p=2时,称为欧氏距离 当p=∞时,称为切比雪夫距离 切比雪夫距离比欧式距离小,欧式距离比曼哈顿距离要小 带权平均数(用来处理回归):假设有a1,a2 ,a3三个数,对应的权重分别是p1, p2 , p3,则a的平均值为(p1a1 + p2a2 + p
2021-04-12 21:27:03 758 1
原创 7、逻辑回归实战
基于病理数据进行乳腺癌预测(良性2/恶性4),利用逻辑回归的算法构建模型,通过概率来预测import numpy as npimport pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionimport matplotlib.
2021-04-10 21:00:40 169
原创 11、数据分析--逻辑回归
线性回归(用特征之间的规律进行回归处理)是处理连续性的,逻辑回归(用特征之间的规律进行逻辑处理)属于分类是处理离散性的 关于判断其实就是二分类问题逻辑回归的基础还是使用了线性回归来处理,只是把模型进行了调整,转化为概率问题逻辑回归(进行二分类的最快算法,深度学习都可用到)概念:逻辑回归,即逻辑模型,也译作“评定模型”、“分类评定模型”回归要求得到的外标签的数值是连续的,逻辑回归则是要进行二分类问题的模型,通过标签在图像上的表示,然后用线性回归的图像线来分隔出各种外标签区域,当数据在哪个区域时
2021-04-10 20:23:46 1163
原创 6、数据降维演练
处理过拟合SVD和PCA都是常用的数据降维处理方式一般可以处理多特征数据的降维处理操作SVD和PCA的实战开发使用量不相上下,没有优劣可言,而且不同情况下好处也是不同的先进行降维再进行特征归一化处理(归一化也可以在降维前用,一般在降维后用)再进行模型处理from sklearn.decomposition import PCA, TruncatedSVD常用方法fit_transform(数据)import numpy as npimport matplotlib.pyplot as p
2021-04-02 21:48:13 314
原创 10、数据分析--数据降维
数据降维不是正则化,虽然都是解决过拟合的方式※数据降维的核心:特征值分解知识补充:数据可以从大数据厂商购置或爬虫获取 fit在用升维,降维,训练等处理进行拟合是必要操作(这样才能得到实质的处理完的数据模型),transform是要把数据(新旧都可以,原来fit拟合的数据放进去就相当于提取出来,然后就可以观察了)放回到fit处理得到的模型里进行匹配转化来提取数据数据信息处理: 缺失值填充的方式(缺失值表示NAN,表示不是一个数的意思,如果拟合的时候其中一次计算代入NAN,那么所得的预测
2021-04-02 21:29:23 1778
原创 5、网格搜索交叉验证实战
如何通过网格搜索交叉验证得到最优参数,并且通过各种模型比较,选择出最优化的模型形式:import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_split, GridSearchCV#都是属于模型选择的库from sklearn.linear_model import Lasso, Ridge # L1,L2的导入from
2021-03-22 21:27:12 386
原创 9、数据分析--线性回归算法(三)
线性回归的其他含义 注:一个基本初等函数充当另一个基本初等函数中的未知数时才算复合函数特征扩展: 多项式回归(得到的模型图的效果一般都会比不用多项式回归的更加好): 线性回归的局限性是只能应用于存在线性关系的数据中,但是在实际生活中,很多数据之间是非线性关系,也可以用线性回归拟合非线性回归,但效果很差,此时就需要对线性回归模型进行改进,使之能够拟合非线性数据。 目标:将数据进行升维处理(特征拓展),可以更好的适应模型(有些数据不能通过一条直线来表达的时候,
2021-03-22 20:09:04 768
原创 L1正则化与L2正则化
为什么L1正则可以产生稀疏模型(很多参数=0), 而L2 正则不会出现很多参数为0的情况? (1)通过导数值进行分析:在进行梯度下降时,对于L1的正则(权值向量w中各个元素的绝对值之和)求导得到的都是1+1+······(有多项1相加),而L2正则化(权值向量w中各个元素的平方和)求导要对于各个特征进行偏导。对于L1正则导数没有减少的可能性,因为都是1。而对L2正则来说的话速度就会比较慢了。 (2)通过正则化的函数图像进行分析:要让Obj(w)最小,反解出w*(最优解的特征参数),这就把 w 的解限制.
2021-03-20 00:19:59 256
原创 4、sklearn实战的认识
sklearn标准线性回归模型import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_split #模型评估 留出法(最基础的3、7分类的评估形式,这里导入的是模型评估模块)from sklearn.linear_model import LinearRegression#线性回归from sklearn.metrics i
2021-03-12 18:02:51 227
原创 8、数据分析--线性回归算法(二)
通过SKlearn把底层算法能简单的执行机器学习的编程其实并不难实现梯度下降: 梯度下降法(Gradient Descent,GD)常用于求解无约束情况下凸函数(Convex Function)的极小值,是一种迭代类型的算法,因为凸函数只有一个极值点,故求解出来的极小值点就是函数的最小值点。 凸函数:函数图像上任意两点的连线要在最小值的上方。 线性代数的代价函数又叫最小二乘法,h-y用平方形式表达正数,不用绝对值,是因为绝对值包括了正还有负,图像就变成了V字形图像而不能求导了。导数的性
2021-03-12 16:20:49 573
原创 3、线性代数实战--底层算法应用
底层算法应用: 1、预处理: 先进行数据预处理 x=np.array([8,7,6,2,7,6,7,6,3,1,4,8,5,2,7]) y=np.array([8,4,8,5,7,6,2,7,6,7,6,3,1,2,7]) 获取样本的数量 n=len(x) 给x增加一列1做准备,目的为了给作为截距的权重有位置可嵌入 x=np.c_[np.ones([n,1]),x] 为了后续维度对应,y也要进行维度的变化 y=y.reshape(15,1) 2、
2021-03-05 01:56:53 248 1
原创 TypeError: _vhstack_dispatcher() takes 1 positional argument but 2 were given
a=np.ones(shape=[8,1])b=np.zeros(shape=[8,1])c=np.hstack(a,b)cTypeError Traceback (most recent call last) in 1 a=np.ones(shape=[8,1])2 b=np.zeros(shape=[8,1])----> 3 c=np.hstack(a,b)4 c<array_function interna
2021-03-04 23:39:40 20465 4
原创 7、数据分析--线性回归算法(一)
机器学习的入门算法:线性回归 人通过问题或者经验得到规律,利用的是学习方法,然后就能预测未来的可能发展。 人工智能通过数据得到数据模型,利用的是算法,然后也可以预测未来的发展,其实和人的学习是类似的。 人工智能的数据模型是一种函数的表达式,机器学习通过训练不断的调整,最后得到最好的表达来呈现出最理想的数据模型基础概念: 我们可以通过样本中的特征去预测样本的结果,多个特征形成的一个数据可以用向量来表示,多个数据可以用矩阵来表示,人工智能要通过数据得到模型,主要的载体就是向量或者矩阵。
2021-03-04 01:23:17 616 1
原创 数据分析有关概念理解
机器学习的这个过程 机器学习就是要拟合某种分布或者说某种函数 ,确定好某种函数后 , 就是对这个函数的参数做求解,而训练的过程就是参数求解的过程。机器学习更注重底层逻辑 ,深度学习是机器学习的一种 ,深度学习更容易。数据建模:数据清洗(缺失值和异常值处理)完了之后,进行可视化展示,然后我们使用一条线去拟合这些点,这条线就是一个函数,有了这个函数我们就可以进行预测,这个函数就是一个模型,这就是数据建模的过程。拟合就是一个求解的过程大数据、数据挖掘与数据分析的区别 数据分析更多采
2021-03-03 19:56:52 320 1
原创 2、matplotlib实战
绘图目的: 1、函数绘制图像 2、分析数据结果小项目分析: 正态分布图像设计: x=np.linspace(-5,5,10) y=1/np.sqrt(2*np.pi) * np.exp(-(x ** 2)/2) plt.plot(x,y) plt.show() 如果绘制函数曲线的时候,想让线更圆滑,就需要设置多个样本点,数据越多越接近真实图像 x=np.linspace(-5,5,100000),真的有这么丝滑 绘制函数
2021-03-03 00:42:01 89
原创 6、数据分析matplotlib
公司的领导喜欢看到可视化的数据,特别是一眼明了,清晰明确的。matplotlib是matlab的一个python版本,但是他比matlab的图面效果要强大和操作门槛更高,而且还免费scipy库包括numpy、pandas和matplotlib等有不懂的函数使用的时候,可以print(help(plt.函数)),函数后不带括号导入:Import matplotlib.pyplot as pltplt.plot(x, y) 有多个x,y(至少两个以上才能成线),绘制折线图 x为所有样本点的x
2021-03-02 23:48:37 212
原创 26、Appium和Mitmproxy配合
mermaidflowchatop1=>operation: 工具配置op2=>operation: Fiddler抓包op3=>operation: Mitm抓包数据存储op4=>operation: requests请求视频数据op5=>operation: Appium自动化op1(right)->op2(right)->op3(right)->op4(right)->op5<center>抓取流程</cente
2021-03-01 15:37:03 321 5
原创 25、mitmproxy
Mitmproxy是一个免费的开源交互式的HTTPS代理。MITM即中间人攻击代理的作用,转发请求,保障服务端与客户端的通信查看,记录,修改数据,引发服务端或客户端的特定行为作用原理原理图2安装pip install mitmproxypip install -i https://pypi.douban.com/simple mitmproxy如果直接安装的速度太慢了,可以在命令行中添加国内的镜像源加快速度,就是第二条命令。注意:python 版本不低于3.6安装成功
2021-03-01 15:34:16 524
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人