- 博客(5)
- 资源 (9)
- 收藏
- 关注
原创 总结一下最近的工作2018-3-26
目前的项目有房价预测,kaggle的一个评论预测比赛。房价预测的那个还没有仔细优化,只是跑了一遍模型。kaggle的评论预测比赛是评论文本检测,然后用的是逻辑回归模型进行判断,涉及字符与word的切分。看前几名的思路才知道原来可以将英文评论转化为德文,西班 牙语等多种语言,然后在转化回来,进行平均或者概率最大的多种方法。...
2018-03-26 14:14:51 168
原创 用Word2Vec来处理NLP问题
以下是主要代码,用word2vec来对词汇进行处理,只给了主要代码,其他读入和处理的代码在我博客里nlp处理的基础版和进阶版中都可以很容易查到。点击打开链接#训练NLP模型#先用最简单的Woed2Vecfrom gensim.models.word.2Vec import Word2Vecmodel = Word2Vec(corpus,size=128,windows=5,min_counts =...
2018-03-21 14:55:43 756 2
原创 NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版
这篇比基础版加了什么呢?基础版是直接将文本放入TF-IDF,虽然简单方便,但还是不够严谨,可以对数据进行进一步处理,如先小写化,将文本分成晓得tokens,接着删减如the,a,that等停止词,用正则化删除数字。用这些手段将数据进行处理。from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer impo...
2018-03-21 14:23:03 3470 3
原创 NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版
TF-IDF+SVM是文本分类问题的基准线from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer import pandas as pd import numpy as pd from sklearn.svm import SVC from sklearn.metrics import roc_auc...
2018-03-21 13:56:39 3900 3
转载 利用kNN算法对iris数据集进行分类,本人也做了修改使得代码可实现
from numpy import * import operator from mpl_toolkits.mplot3d import Axes3D import matplotlib.pyplot as plt from matplotlib import cm #载入数据 def file2matrix(fileName): file = open(fileName) al...
2018-03-03 15:56:11 5428 1
提取bdd100k中的labels中的json格式数据到txt格式
2018-09-26
leetcode 代码1-30题 纯python
2018-07-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人