机器学习
文章平均质量分 51
fenfenxhf
这个作者很懒,什么都没留下…
展开
-
小项目(逻辑回归)--信用卡数据异常检测
1.数据集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('creditcard.csv')print(data.head(n=5))countClasses = pd.value_counts(data['Class'],sort=True).sort_in...原创 2018-10-04 21:22:44 · 1835 阅读 · 3 评论 -
sklearn构建决策树
1.可视化树import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn import treeimport graphviz #可视化import pydotplus #画.dot文件from IPython.display import Image #图片from sklear...原创 2018-10-05 21:23:24 · 1085 阅读 · 0 评论 -
小项目(集成算法)--泰坦尼克船员获救预测
1.拿到数据集应该先分析数据(每个特征分析,缺失值等等)2.数据预处理首先简单看一下数据集的数据特征import numpy as npimport pandas as pdimport matplotlib.pyplot as plttitanic = pd.read_csv('titanic_train.csv')print(titanic.describe())我们分析...原创 2018-10-06 15:39:04 · 799 阅读 · 0 评论 -
小项目--贝叶斯实现拼写检查
求解:argmaxc P(c|w) -> argmaxc P(w|c)P©/P(w)P©:文章中出现一个正确拼写词c的概率,也就是语料库中c出现的概率有多大P(w|c):在用户想键入c的情况下敲成w的概率,也就是用户会以多大的概率把c敲错成wargmaxc:用来枚举所有可能的c并且选取概率最大的import re #正则表达式from collections import defa...原创 2018-10-06 21:09:41 · 260 阅读 · 0 评论 -
小项目(文本数据分析)--新闻分类任务
1.数据import pandas as pdimport jieba ##数据(一小部分的新闻数据)df_news = pd.read_table('val.txt',names=['category','theme','URL','content'],encoding='utf-8')df_news = df_news.dropna() #直接丢弃包括NAN的整条数据print(...原创 2018-10-07 11:26:50 · 5368 阅读 · 3 评论 -
pthon时间序列分析
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom statsmodels.graphics.tsaplots import plot_acf,plot_pacffrom statsmodels.tsa.arima_model import ARIMA #ARIMA模型import patsy...原创 2018-10-15 08:57:56 · 630 阅读 · 0 评论 -
小项目(Gensim库)--维基百科中文数据处理
1.下载维基百科数据https://dumps.wikimedia.org/zhwiki/latest/2.预处理文件:将压缩的文件转化成.txt文件添加脚本文件process.py,代码如下:import loggingimport os.pathimport sysfrom gensim.corpora import WikiCorpusif __name__ == '__...原创 2018-10-10 15:28:19 · 1264 阅读 · 1 评论