自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (9)
  • 收藏
  • 关注

原创 总结一下最近的工作2018-3-26

目前的项目有房价预测,kaggle的一个评论预测比赛。房价预测的那个还没有仔细优化,只是跑了一遍模型。kaggle的评论预测比赛是评论文本检测,然后用的是逻辑回归模型进行判断,涉及字符与word的切分。看前几名的思路才知道原来可以将英文评论转化为德文,西班 牙语等多种语言,然后在转化回来,进行平均或者概率最大的多种方法。...

2018-03-26 14:14:51 168

原创 用Word2Vec来处理NLP问题

以下是主要代码,用word2vec来对词汇进行处理,只给了主要代码,其他读入和处理的代码在我博客里nlp处理的基础版和进阶版中都可以很容易查到。点击打开链接#训练NLP模型#先用最简单的Woed2Vecfrom gensim.models.word.2Vec import Word2Vecmodel = Word2Vec(corpus,size=128,windows=5,min_counts =...

2018-03-21 14:55:43 756 2

原创 NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版

这篇比基础版加了什么呢?基础版是直接将文本放入TF-IDF,虽然简单方便,但还是不够严谨,可以对数据进行进一步处理,如先小写化,将文本分成晓得tokens,接着删减如the,a,that等停止词,用正则化删除数字。用这些手段将数据进行处理。from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer impo...

2018-03-21 14:23:03 3470 3

原创 NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版

TF-IDF+SVM是文本分类问题的基准线from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer import pandas as pd import numpy as pd from sklearn.svm import SVC from sklearn.metrics import roc_auc...

2018-03-21 13:56:39 3900 3

转载 利用kNN算法对iris数据集进行分类,本人也做了修改使得代码可实现

from numpy import * import operator from mpl_toolkits.mplot3d import Axes3D import matplotlib.pyplot as plt from matplotlib import cm #载入数据 def file2matrix(fileName): file = open(fileName) al...

2018-03-03 15:56:11 5428 1

挂载新硬盘的详细步骤以及一定要注意的点

挂载新硬盘的步骤以及问题的解决办法注意事项,当需要挂载>2T的硬盘时不能用传统的fdisk方法,需要用下面的方法

2018-12-25

iou.txt用来计算iou c++的程序

用c++来计算iou,简洁明了,十分方便,可不用下载,我只是来保存文件的

2018-10-26

opencv详细教程,里面有详细的代码

opencv详细教程,里面有详细的代码,十分详细,内容完整为pdf版本,代码都可实现,注释通俗易懂

2018-10-15

提取bdd100k中的labels中的json格式数据到txt格式

提取bdd100k中的labels中的json格式数据到txt格式,数据包括traffic light的颜色以及在图中的box的位置

2018-09-26

leetcode 代码1-30题 纯python

1-30题的答案 后续答案我继续写再上传 有的代码自己不会 是参考别人的代码,其中缺了10题,20题与30题 没找到合适的python代码,等我自己写好 或者找到别人可用的,再重新上传

2018-07-19

天池比赛 美年健康完整代码

这个是我参加天池的比赛 美年健康的完整程序,包括最初的修改代码,最终代码,数据,几乎涵盖了我整个项目流程,包括数据的处理,分析,模型的选择比较。

2018-07-03

红海行动的评论(可以用来作为数据挖掘,情感识别等数据样本)

此评论可以用来作为数据挖掘,情感识别等数据样本,便签可以用nltk进行分标签

2018-04-13

Iris数据集

iris数据集,所下载的为压缩文档,包含两个txt格式的文件,irisdata_test.txt、irisdata.txt

2018-03-03

机器学习实战

机器学习实战里面的具体代码,数据,文档等等。都按文件夹整理好了,可以配着我的博客里面的代码一起使用,里面好多错误我也在博客里及时更新

2018-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除