自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

转载 基于KNN的newsgroup 18828文本分类器的Python实现

还是同前一篇作为学习入门。1. KNN算法描述:step1: 文本向量化表示,计算特征词的TF-IDF值step2: 新文本到达后,根据特征词确定文本的向量step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20step4: 在新文本的k个邻居中,依次计算每类的权重,step5: 比...

2019-10-08 18:47:19 536

转载 1.6jdk + eclipse + pydev搭建Python开发环境

直接在1.6jdk的eclipse上用install new software的方法安装插件,会找不到安装好的插件。pydev官网还提供一种zip直接解压插件到eclipse文件夹下的dropins文件夹中这种方法。最终使用这种方法是可行的。在pydev官网http://pydev.org/download.html选择和Python版本对应的pydev插件压缩包。转载于:htt...

2019-10-08 18:47:18 152

转载 基于Bayes和KNN的newsgroup 18828文本分类器的Python实现

向@yangliuy大牛学习NLP,这篇博客是数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现(上)的Python实现。入门为主,没有太多自己的东西。1. 数据集Newsgroup新闻文档集,含有20000篇左右的Usenet文档,平均分配在20个新闻组,即有20个文件夹。现在用的Newsgroup18828新闻文档集是经过处理的,即每篇...

2019-10-08 18:47:17 229

转载 一号店笔试题

笔试前参考往年题目。有道智力题,分金条,网上搜这个关键字就有解。1. java链接数据库的步骤, preparedstatment 和statement有什么区别2. session和cookie的区别,怎么用session和cookie来访问共享用户信息 答:参考cookie 和session 的区别详解1、cookie数据存放在客户的浏览器上,session数据放...

2019-10-08 18:47:16 133

转载 C++笔试题

平时学术必须用Python多啊,但校招笔试绕不开语言基础,非cs科班小弱临阵整理些C++题备考。很弱很苦逼。。。一、指针1.二维数组指针#include<stdio.h>int main(int args,char ** argv){ int map[3][3]={ {1,2,3}, ...

2019-10-08 18:47:16 147

转载 雅虎2015校招--研究工程师

今年雅虎校招看到的部分题目Section C:2. insert interval (leetCode)@喵星人与汪星人这篇http://huntfor.iteye.com/blog/20850953. Inerleaving (leetCode)还是@喵星人与汪星人http://huntfor.iteye.com/blog/2086539, 引了一位FB大神的...

2019-10-08 18:47:14 106

转载 最长递增子序列

看到蘑菇街2015校招技术类又考到这个http://www.itmian4.com/forum.php?mod=viewthread&tid=6495&highlight=%C4%A2%B9%BD%BD%D6,以下是GeeksforGeeks的代码,DP解,容易理解但复杂度是O(n2),还有一种二分查找的方法使复杂度降到O(nlogn)http://en.wikipedi...

2019-10-08 18:47:14 78

转载 windows下Python shell代码自动补全

Unix下实现如题功能用下面的代码:import rlcompleter, readlinereadline.parse_and_bind('tab: complete')但readline不能在win中用,需要为windows编译好的pyreadlinepip install pyreadlineimport rlcompleter, pyre...

2019-10-08 18:47:12 380

转载 百度2013校园招聘笔试题(答案整理) – 机器学习/数据挖掘工程师

1.简述数据库以及线程死锁产生的原理及必要条件,简述如何避免死锁。(10分)2.请列举面向对象设计的三个基本要素及五种主要设计原则。(10分)参考:三个基本要素:封装、继承、多态。五个基本原则:1)单一职责原则:就一个类而言,应该仅有一个引起它变化的原因。2)开放封闭原则:软件实体对外扩展开放,对修改封闭。3)里氏替换原则:子类的实例能够替换父类的实例。...

2019-10-08 18:47:12 279

转载 windows下scrapy安装

C:\users\XXXX>easy_install scrapy 出现错误 fatal error C1083: Cannot open include file: 'openssl/aes.h' : No such file or directory。才想起scrapy主页Installation Guide中有Pre-requisites,是需要事先安装openssl。在主页...

2019-10-08 18:47:10 148

转载 ntlk_data安装小结

《Python自然语言处理》用nltk.download()的方法安装书中所用语料库数据,不太好使。一是部分网友反映的下载很慢很慢,二是下载链接,无论书上、NLTK官网(http://nltk.org/nltk_data/)、网友博客(http://www.cnblogs.com/ToDoToTry/archive/2013/01/18/2865941.html)提供的,都已年久失修,试...

2019-10-08 18:47:09 251

转载 SVD小结

1.矩阵分解假设一个矩阵Data是m行n列,SVD(奇异值分解)将Data分解为U,E,VT 三个矩阵:Datam*n=Um*kEk*kVTk*nE是一个对角矩阵,对角元素为奇异值,对应Data的奇异值,即Data*DataT特征值的平方2.选取特征下面确定选取哪几维特征实现降维,去除噪声和冗余信息,用低维数据集表示原数据集。典型做法是保留矩阵90%能量信息,公式...

2019-10-08 18:47:08 142

转载 Logistic回归小结

1.梯度上升优化1). 伪代码:所有回归系数初始化为1-------------------weights = ones((colNum,1))重复r次:  计算整个数据集的梯度gradient  使用alpha*gradient更新回归系数的向量  返回回归系数weights2). 迭代r次的代码:  for k in range(r): ...

2019-10-08 18:47:08 154

转载 在window上安装pandas

之前在ubuntu上安装pandas,用的easy_install。这次在window上同样方法装遇到"unable to find vcvarsall.bat",看一些网上帖子好像说这个要装minGW解决,不喜欢装那么东西。就直接下exe装pandas,但也遇到问题,在注册表里找不到python2.7。网上一些帖子说加个register.py,试了不管用。倒是这篇搞定了 http://...

2019-10-08 18:47:07 187

转载 Day14 summary

Since I am writing blog in Ubuntu which has not installed Chinese language package, this blog will be in poor English.It's terrible to run into problem or bug one by one these days. But it's lu...

2019-10-08 18:47:06 109

转载 Day9 summary

昨天又翻出收藏夹里一个叫“谷子粒”的bloghttp://1.guzili.sinaapp.com/?p=128#more-128,链接是博主整理的机器学习方面的热点微博,相当的干货。要说我是从知乎对数据挖掘、机器学习入的门,那现在我在微博又进一阶。这里接触到更多的国内外大牛教授,活跃的中青年MLer,或分享或整理,都算是让我大开眼界。这里有一位叫郭亮的同学,应该是位博士,我和他的经历就...

2019-10-08 18:47:05 60

转载 Day7

看集体编程智慧第一章,做基于del.ici.ous建推荐系统那个练习,需要API。自从打通google API后现在见什么API都妥妥的。不过这个是人家事先编写好的python API,http://code.google.com/p/pydelicious/downloads/list下载下来,用命令[python.exe所在目录]\python.exe setup.py instal...

2019-10-08 18:47:04 82

转载 Day2 summary

感觉今天就对电脑大扫除了。卸了一早上cygwin也没找到方法,只能先放着不管,真上linux时才说。搜了搜linux视频教程很多,应该好开个头。但这个毕竟是优先级不够高的。高的必须是论文啊,还有学会DM的手艺。跟捡白菜似的先验验网上的数据源都能用不,好用不。数据堂看起来也不那么给力,微博数据自己挖更对准需求,电商数据要100~800人民币,暂且不会去用吧。其他的数据源...

2019-10-08 18:47:02 60

转载 Day3 summary

今天主要学习了K-means算法,又过了遍Andrew教授的coursera视频,弄明白了Action书上的算法。困难出现在实例练习,申请Yahoo place finder API获得了appid,但不确定是否要收费,反正案例使用时没有返回像书上出现的结果,也不确定问题是否出现在json加载时编解码出现问题,感觉八成还是API的问题。网上遍寻API相关文章命中问题的几乎没有,估计需...

2019-10-08 18:47:02 84

转载 Day1 summary

对比了几篇在hadoop环境中实现关联规则、频繁项集的论文,文章结构都涉及mapreduce模型、传统与改进apriori算法比较、实验结果分析(数据规模-用时or加速比,节点-用时or加速比)。有一篇北交大的毕业论文是作者在淘宝实习做的项目,很有实践参考价值。又过了遍《machine learning》中的apriori算法,倒是关联规则函数中合并什么的又看不懂了,只能回去对比之前...

2019-10-08 18:47:01 94

转载 A problem needed to review and fix later

urllib2.URLError:<urlopen error [Errno 110] Connection timed out>still have no idea how to fix this...转载于:https://www.cnblogs.com/ffan/p/3590347.html

2019-10-08 18:47:00 64

转载 The 1st day with Python

刚开始实践python,遇到比较多的问题就是函数名、变量名输入错误,比较给力的按无论shell还是terminal给出的错误提示,按图索骥都能在网上找到相关解决办法,简单的自己也能顿悟。典型的一个是《Head first Python》中安装本地module用了一个linux指令sudo,搞了半天无果,始终说不是内部指令。一个linux中提高权限的指令,windows中不用就可以。...

2019-10-08 18:46:59 66

转载 Ch2.Making Reconmmendation in PCI

做《Programing Collective Intelligence》中chapter 2.Making Recommendation的实例,有3个问题花了好长时间:1. 遇到报错"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"。看了ht...

2019-10-08 18:46:58 187

转载 Configuration for Python to run on Android

It's exiting to learn tomake app on Android with python. But when I check <Head First Python>, I found there was a lot of programming to download, to install, and a lot of set-up, a lot of...

2019-10-08 18:46:56 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除