- 博客(21)
- 收藏
- 关注
翻译 翻译:Doc2vec指导
说明:新接触Doc2vec,从网上搜了一下用法,总觉得不是很清晰,偶然找到一片国外博客,觉得比较友好。在搜索资料时,深受英语阅读能力低下的困扰,有身在宝藏之中却不识,坐在盛宴桌边却不能动的无力感。所以尝试翻译并保留在这,本人能力有限,如有错误,请重拍。这是一篇2014年的博客,API有些已经过时,但不影响使用原文链接:https://rare-technologies.com/doc2vec-tut
2017-11-25 13:28:49 2730
原创 Cookie,DNS,IP
Cookie参考:https://zh.wikipedia.org/wiki/Cookie介绍Cookie(负数Cookies),中文名“小型文本文件”,或者“小甜饼”,指某些网站为辨别用户身份而存储在用户本地终端(Client Side)上的数据,通常经过加密。分类Cookie总是保存在客户端中,按在客户端的存储位置,可以分为内存Cookie和硬盘Cookie。内存Cookie有浏览器维护,保存在
2017-09-13 20:37:43 824
原创 Learning How to Learn(1)
学习一项技能,尤其是比较困难代学科,就像举重一样,不可能在比赛的前一天才开始训练。功夫在平时,每天锻炼,才能不断提高。在放松的时候大脑容易出现有创意的想法。 在睡觉时,大脑神经元根据学习内容会生长出新的突触,睡醒一觉,你已不同。不止学习,在其他方面也是使用的。学习技能,娱乐,运动,大脑在休息时会发展出新突触。 在学习过一段事件后大脑需要放松,把注意里转移到其他事情上,给大脑消化内容新建结构的时间
2017-09-02 09:21:48 496
原创 ubantu配置anaconda + pycharm 2.7环境
ubantu配置anaconda + pycharm 2.7环境一 安装anacon下载安装包:在官网下载anaconda速度很慢,推荐清华镜像下载地址:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 速度飞起。注意:根据自己需要选择anaconda2对应python2,anaconda3对应python3。版本名有ppc是ibm公司c
2017-08-28 15:07:39 894
原创 jieba分词
这是一篇在应用jieba做中文分词的记录 参考:https://github.com/fxsjy/jieba概述在处理文本数据时,分析语句含义,要把中文的一整句话切分成一个个单词,通过对单词对分析完成语句含义对分析。jieba分词时处理中文单词分割对一种很好对算法包。特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常
2017-08-18 10:40:33 673
原创 sklearn_PCA实践
这篇主要记录在sklearn中如何应用pca,理论推导在http://blog.csdn.net/huangyi_906/article/details/75578213) 官网中给出的介绍:class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, i
2017-07-31 14:50:56 6721
原创 数据探索(一)
数据探索是拿到数据要做的第一步,目的是对要分析的数据有个大概的了解。弄清数据集大小,特征和样本数量,数据类型,数据的概率分布等。下面结合奔驰车数据做个梳理,也是个人学习的记录。
2017-07-30 20:24:05 3807
原创 聚类总结(上)——划分聚类
概述聚类指根据一定的准则,把一份事物按照这个准则归纳成互不重合的几份。机器学习中,聚类指按照一个标准,这个标准通常是相似性,把样本分成几份,使得相似程度高的聚在一起,相似程度低的互相分开。聚类的方法很多,有基于分层的聚类,基于划分的聚类,基于密度的聚类。不同的方法有各自的特点,适用于不同分布的数据。有的适用于大数据集,能发现不同的任意形状的数据。有的算法简单,适用于小量数据集。众多方法中又有无监督学
2017-07-28 23:07:40 15529
原创 XGBoost理论相关推导
概论弱分类器可以通过bagging和boosting转换成强分类器。随机森林是bagging的改进,通过有放回的随机采样,获得不同的样本数据,随机得到不同的决策树,各个决策树之间相互独立,通过投票选出最终结果。boosting是所有分类器加权求和预测最终结果,各个分类器相互不独立。
2017-07-27 17:23:53 598
原创 SVM支撑向量机相关
概述Support Vector Machine(SVM),译作支撑向量机。不同的核函数有不同的作用,线性核、多项式核可以做回归问题。
2017-07-22 14:20:19 402
原创 LogisticRegression相关
概述LR(逻辑斯蒂回归)是一个假设因变量发生概率符合二项分布的分类模型。可以做二分类,也可通过多次二分类实现多分类的目的。是最基本的分类器,优点是速度快,模型简单。
2017-07-21 20:14:08 373
原创 Python dict.get()
描述:通过key值获取字典内容并返回,如果没有key可以返回指定值。语法:D.get(k,[,d])k:key值实例:c = {'a':1,'b':2,'c':3,'e':4}print c.get("a",'nothing')print c.get("f",'no here')输出:1no here
2017-03-30 19:47:33 477
原创 Python 遍历字典
描述:用for语句可以遍历取出字典中的key值,也可以通过key得到相对应的内容值实例:d = {'a':1,'b':2,'c':3,'e':4}for k1 in d: print k1输出:acbefor k2 in d.items(): print k2输出:('a', 1)('c', 3)('b', 2)('e', 4)for k3,m in d.items
2017-03-30 19:31:20 397
原创 Python S.join()
描述:用于把字符串用指定的符号链接起来,返回字符串格式语法:S.join(iterable)S:需要的分隔符 iterable:被分割对象 (按语法字面理解s和iterable作用正好和实际交换)实例:对列表:a = ['a','b','c','d','e']print '-'.join(a)print '*'.join(a[1:3])输出:a-b-c-d-eb*c对元组:b = ('q
2017-03-29 21:40:13 5848
原创 python list.pop()
描述:删除列表中元素并返回其值语法:L.pop([index])实例:a = [1,2,3,4,5,6]b = a.pop()print "b:",bprint "a:",ac = a.pop(1)print "c:",cprint "a:",a输出为:b: 6a: [1, 2, 3, 4, 5]c: 2a: [1, 3, 4, 5]
2017-03-29 21:04:11 893
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人