数据挖掘
少游223
语音识别算法
展开
-
NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版
这篇比基础版加了什么呢?基础版是直接将文本放入TF-IDF,虽然简单方便,但还是不够严谨,可以对数据进行进一步处理,如先小写化,将文本分成晓得tokens,接着删减如the,a,that等停止词,用正则化删除数字。用这些手段将数据进行处理。from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerimpo...原创 2018-03-21 14:23:03 · 3472 阅读 · 3 评论 -
python环境安装tlsh
https://github.com/trendmicro/tlsh上面的链接是官方的工具,trend micro的产品,在该链接介绍中有详细的安装介绍,不明白部分可以私我。原创 2019-02-18 12:32:49 · 903 阅读 · 0 评论 -
scp 拷贝数据从一台服务器到另一台 出现的参数太长导致无法拷贝的问题解决方式
常见拷贝方式有scp -r 与scp --------/* ,这两者方式都有人用,但是后者用的话会造成问题就是传递给scp的参数太长,导致失败,解决办法是使用scp -r 进行copy,why we can use this way to solve this problem? Because scp 采用的是递归的方式复制,众所周知,递归方式可以节省资源,所以完美的解决了这个办法。同时记录一...原创 2019-01-15 14:46:21 · 2431 阅读 · 0 评论 -
pickle 文件的读取操作(可以较好地保存数据类型不改变)
f=open('C:\\Users\\-------\\Desktop\\' + 'pickle_A.dat','wb+')pickle.dump(coded_sps_A_norm,f)f.close f=open('C:\\Users\\-------\\Desktop\\' + 'pickle_A.dat','rb')import pickledata = pickle.loa...原创 2018-12-25 16:46:55 · 2274 阅读 · 0 评论 -
用xgboost进行网格搜索与交叉验证时 出现的问题
cv_params = {'n_estimators': [6,10,20,50],'learning_rate':[0.1,0.01,0.05]}other_params = { 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,'silent':0, 'subsample': 0.8, 'colsampl...原创 2018-12-28 14:36:18 · 2387 阅读 · 0 评论 -
mysql数据库 误删mysql.infoschema@localhost 之后出现账户无法连接问题的解决方案
最近在忙着扎实自然语言处理的基础,没怎么更新,哈哈 回到正题,好开心终于解决了昨天大半天没解决的问题。Mysql Error:The user specified as a definer (‘mysql.infoschema’@’localhost’) does not exist’ when trying to dump tablespaces这个就是问题,因为原来的问题没有截屏。试过...原创 2018-07-19 21:32:49 · 10388 阅读 · 3 评论 -
决策树回归算法
import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as plt#创建一个随机数据集rng = np.random.RandomState(1)X = np.sort(5*rng.rand(80,1),axis = 0)y = np.sin(X).ravel(...原创 2018-04-13 20:37:43 · 2351 阅读 · 0 评论 -
决策树的iris的分类
import numpy as npfrom sklearn import treefrom sklearn import metricsfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetidx = np.arange(X.shape[0])np.random.see...原创 2018-04-13 20:37:02 · 2317 阅读 · 1 评论 -
简单处理xlsx文件,简单修改即可轻松处理其他格式文件
import pandas as pdfrom numpy import *df = pd.read_excel('C:\\Users\\Administrator\\PycharmProjects\\untitled\\python文件包\\python与数据科学\\excel-comp-data.xlsx')df.head()m,n = shape(df) #m为行数,n为列数#增...原创 2018-04-13 20:33:02 · 2168 阅读 · 0 评论 -
用k最近邻、决策树和朴素贝叶斯比较分类效果
用三种分类方法,分别是k最近邻、决策树和朴素贝叶斯。画出数据点和决策边界,对比其区别。结果在最后的图中import numpy as npfrom numpy import *import matplotlib.pyplot as pltfrom sklearn.naive_bayes import GaussianNBfrom sklearn import metricsfrom s...原创 2018-04-13 20:30:51 · 5211 阅读 · 2 评论 -
python的数据分析之预处理
包括对文件的读入,以及文件的一些简单处理。import pandas as pdfrom numpy import *df = pd.read_excel('C:\\Users\\Administrator\\PycharmProjects\\untitled\\python文件包\\python与数据科学\\excel-comp-data.xlsx')df.head()m,n = sha...原创 2018-04-09 15:58:01 · 383 阅读 · 0 评论 -
总结一下最近的工作2018-3-26
目前的项目有房价预测,kaggle的一个评论预测比赛。房价预测的那个还没有仔细优化,只是跑了一遍模型。kaggle的评论预测比赛是评论文本检测,然后用的是逻辑回归模型进行判断,涉及字符与word的切分。看前几名的思路才知道原来可以将英文评论转化为德文,西班 牙语等多种语言,然后在转化回来,进行平均或者概率最大的多种方法。...原创 2018-03-26 14:14:51 · 168 阅读 · 0 评论 -
用Word2Vec来处理NLP问题
以下是主要代码,用word2vec来对词汇进行处理,只给了主要代码,其他读入和处理的代码在我博客里nlp处理的基础版和进阶版中都可以很容易查到。点击打开链接#训练NLP模型#先用最简单的Woed2Vecfrom gensim.models.word.2Vec import Word2Vecmodel = Word2Vec(corpus,size=128,windows=5,min_counts =...原创 2018-03-21 14:55:43 · 756 阅读 · 2 评论 -
3-28处理数据是awk cat shell等方式记
awk -F"\t" '{if($2>=500) print $1}' file > file_new这里F后面指定切分方式在每行的头添加字符,比如"HEAD",命令如下:sed 's/^/HEAD&/g' test.filecat file | sort -t $'\t' -k2 -n -r > newfile #以tab进行分割数据 ...原创 2019-03-28 17:34:27 · 356 阅读 · 0 评论