Python
文章平均质量分 76
金融科技自习生
机器学习、数据挖掘、大数据、Python、金融科技。
展开
-
Pandas数据分析(下)|一文学会pandas数据可视化
折线图 分开显示多个图散点图柱形图绘制堆叠柱形图直方图箱形图饼图Pandas继承和优化了matplotlib,因此可以直接使用Series和DataFrame对象通过plot()方法轻松地绘制图形。使用pandas绘制图形时通常需配合matplotlib一起使用。Series和DataFrame调用plot(),默认绘制折线图。索引为X轴,数据为Y轴。通过设置plot()的参数subplot=True,可以将DataFrame的列自动拆分,然后分开显示为多个图像。使用plot.scatter()原创 2022-06-06 23:34:50 · 355 阅读 · 1 评论 -
Pandas数据分析(中)|一文入门pandas数据处理
本文包括以下几部分数据筛选数据统计空值/NaN处理字符类型处理时间序列类型处理数据筛选按照筛选方式的不同,可以将数据筛选分为以下两种:两者的区别在于前者返回满足条件的数据,后者将不满足条件的以NaN值填充。使用表达式/布尔值筛选,即直接在“下标”中写出过滤条件,返回满足条件的数据。使用where()方法筛选数据,通过DataFrame.where(表达式) 可以筛选出满足条件的数据,同时不满足表达式的数据将以“NaN”值填充并一起返回。数据统计pandas提供一些函数实现对Series/D原创 2022-06-06 23:25:08 · 1181 阅读 · 0 评论 -
Pandas数据分析(上)|一文读懂Series和DataFrame
Pandas数据分析(上)|一文读懂Series和DataFrame原创 2022-06-05 19:24:14 · 3772 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯--python/scikit-learn实现
目录理论基础知识基本思想贝叶斯模型手动计算实例一:实战项目--屏蔽社区留言板的侮辱性言论Python版本Scikit-learn版本One more thing1.连续特征的处理方式2.零概率问题--拉普拉斯平滑理论基础知识贝叶斯与大多数机器学习算法不同,如:决策树,逻辑回归,支持向量机等都是判别方法,也就是直接学习出特征输出Y和特征X之间的...原创 2019-10-28 11:52:10 · 1661 阅读 · 0 评论 -
机器学习实战之决策树--Python/scikit-learn实现
目录简单理论介绍ID3--信息增益C4.5--信息增益率CART--基尼系数决策树对比机器学习实战-决策树预测隐形眼镜类型(ID3)Python实现Scikit-learn实现简单理论介绍ID3--信息增益信息熵( Information Entropy):度量了事物的不确定性,越不确定的事物,它的熵就越大;随机变量X它的熵表达式如下:其中 ...原创 2019-10-15 17:20:21 · 952 阅读 · 0 评论 -
机器学习实战之K近邻(KNN)-python/sklearn实现
目录简单理论介绍kNN算法之约会网站配对(Python)scikit-learn实现简单理论介绍K最近邻(k-Nearest Neighbor,KNN)分类算法应该是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:与它附近的k个样本比较,与它最相似(即特征空间中最邻近)的这K个样本中,大多数属于某一个类别,则该样本就属于这个类别。对于两个...原创 2019-10-11 16:15:31 · 1505 阅读 · 0 评论 -
pandas基础操作浏览--更新中...
目录Series构建Series索引SeriesDataFrame构建DataFrame列检索行索引列赋值pandas中的数据结构:Series (一维) , DataFrame(二维)Series构建Series从另一个角度可以认为Series是一个长度固定且有序的字典,索引值和数据值位置匹配。索引SeriesD...原创 2019-09-20 11:02:10 · 105 阅读 · 0 评论 -
ImportError: Install xlrd >= 1.0.0 for Excel support错误出现及其解决帮法
没有pandas的话先pip install pandas然后pip install xlrd搞定。原创 2019-09-06 08:42:06 · 2434 阅读 · 0 评论 -
pandas基础--数据读写、数据情况、数据清洗、类型转换、数据连接
数据读写操作函数 函数 参数 功能 备注 其他 pd.read_csv() 路径 读文件 csv、txt pd.read_excel() pd.read_sql() df.to_csv() 写文件 df.to_exce...原创 2019-09-04 11:50:09 · 443 阅读 · 0 评论 -
得到自己想要的高斯分布--numpy.random.randn()
在机器学习中我们经常会通过生成随机数来:初始化模型参数啊,或者生成随机样本来测试检验模型啊等等。最常用的如高斯分布(正态分布):标准的高斯分布N(0,1)是最容易获得的。numpy 的random类中提供了生成服从均值为0 方差为1 的高斯分布的函数numpy.random.randn()那么。如果你想获得一个自己想要的高斯分布如 N(1,4)这个时候你就可以利用公式...原创 2019-08-20 10:09:52 · 4909 阅读 · 0 评论 -
pandas--数据类型转换
由于在科大讯飞广告比赛中用pandas处理数据不是太熟练,这里做一个关于数据类型转换的小节。纯数字类型最长用的一个:df['xxx'].astype()当你pandas读取到数据,某一列(行)的原始数据,都是数字的形式:如 字符串:‘123’,7我在这里处理了‘sid’这一列的数据,然后生成新的一个特征‘newf’,查看一下它的数据类型,可以知道它是一个object类型的...原创 2019-08-04 10:51:56 · 2496 阅读 · 0 评论 -
OSError: Initializing from file failed
今天在拿到 科大讯飞 移动广告反欺诈算法挑战赛 数据的之后,刚开始用pd.read_csd()读取文件就给我报错,显示这个错误。# 导入数据data_path = './移动广告反欺诈算法挑战赛/'test_df = pd.read_csv(data_path + 'round1_iflyad_anticheat_testdata_feature.txt', delimiter="\t...原创 2019-07-10 21:45:28 · 899 阅读 · 0 评论 -
Python--线性查找
线性查找是按照顺序一个一个查找,直到找到需要查找的值。def linesearch(arr,x): n = len(arr) for i in range(n): if x == arr[i]: return i return -1arr = ['a','b','w','q','g']x = 'g'result = ...原创 2019-07-07 22:06:16 · 542 阅读 · 0 评论 -
图像分类-----K-聚类算法
K-means 是一种将输入数据划分成 k 个簇的简单的聚类算法。K-means 反复提炼初始评估的类中心,步骤如下:(1) 以随机或猜测的方式初始化类中心 u i ,i=1…k;(2) 将每个数据点归并到离它距离最近的类中心所属的类 c i ;(3) 对所有属于该类的数据点求平均,将平均值作为新的类中心;(4) 重复步骤(2)和步骤(3)直到收敛。聚类是无监督算法,优势是不要给...原创 2019-04-19 16:47:11 · 5450 阅读 · 1 评论 -
Keras 2.0 Merge 没了,怎么处理多输入融合
办法一:降低版本。那么相关的支持库也要响应的更改匹配, 过程比较复杂。笔者试过,不建议这样操作。-----------------------办法二:在Keras 2.0后的版本,Merge()层没有了,但是merge()还在,不过这个要引起注意,2.0后想融合模型,就必须改成函数式的。Merge()操作的对象是layermerge()操作的对...原创 2019-03-22 14:00:48 · 5756 阅读 · 0 评论