自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 gensim使用心得

#list1里放关键字,关键字可以通过jieba或者snownlp给出,我这里是提前设置好的list1=[]import jieba#将docx文件转化为txtimport docx2txtimport jieba.analysedef test(file_path): h=docx2txt.process(file_path) data=jieba.cut(h)...

2018-08-23 16:41:00 756

原创 jieba和snownlp分词的对比及snownlp用法简介和情感分析

首先安装jieba和snownlp直接pip就可以。import jiebafrom snownlp import SnowNLP#SnowNLP库:# words:分词# tags:关键词# sentiments:情感度# pinyin:拼音# keywords(limit):关键词# summary:关键句子# sentences:语序# tf:tf值# idf:i...

2018-08-14 16:38:42 7441

转载 推荐系统 python

转自https://www.cnblogs.com/190260995xixi/p/5940356.html现如今,网站用推荐系统为你提供个性化的体验,告诉你买啥,吃啥甚至你应该和谁交朋友。尽管每个人口味不同,但大体都适用这个套路。人们倾向于喜欢那些与自己喜欢的其他东西相似的东西,也倾向于与自己身边的人有相似的口味。推荐系统就尝试捕捉这一规律来帮助预测你也可能喜欢的其他东西。  为帮用户高...

2018-08-14 15:04:50 2943

原创 python3 lambda,map,filter,reduce函数的应用

一直以来就被这几个函数搞的萌萌哒,今天终于下定决心搞一下它们了。进入正题lambda:def fun(x): return x+1#这个函数就等价于g=lambda x:x+1lambda的基本语法就是在(:)左边放原函数的参数,可以有多个参数,用逗号(,)隔开即可;冒号右边是返回值。lambda语句实际上是返回一个函数对象,如果要对它使用,只需要进行简单的赋值操作...

2018-08-11 11:32:16 578

原创 Sklearn调参之sklearn.model_selection.GridSearchCV

对估计器的指定参数值穷举搜索。寻找合适的参数,GRIDSCACHCV实现了一个“拟合”和“得分”方法。在所使用的估计器中实现了“预测”、“预测函数”、“决策函数”、“变换”和“逆变换”。应用这些方法的估计器的参数通过参数网格上的交叉验证网格搜索来优化。用法sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=...

2018-08-07 17:09:51 6576

原创 python 独热码one hot encoding的用法

Keras的独热码one hot encoding 即np_utils.to_categorical使用独热码来处理多分类问题from keras.utils import np_utils给出特征向量和类别标签如:0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 00, 0, 0, 1, 1, 0, 0...

2018-08-07 15:55:03 1841

原创 sklearn.feature_extraction.text.CountVectorizer 参数说明

本人小白一枚,现在正在做分词和文本挖掘的事情,翻译了下sklearn.feature_extraction.text.CountVectorizer,有错误之处还请大佬指出 将文本文档集合转换为计数矩阵此实现使用scipy.sparse.csr_matrix生成计数的稀疏表示。如果您不提供先验词典并且不使用执行某种特征选择的分析器,则功能的数量将等于通过分析数据找到的词汇量。用法:...

2018-08-07 14:59:20 5389

原创 python 排序方式 冒泡,选择,插入,希尔排序,快速排序,归并排序

本人初学小白,如有问题,请大佬不吝赐教!!!'''#冒泡排序def bubble_sort(nums): for i in range(len(nums)-1): for j in range(len(nums)-1-i): if nums[j]>nums[j+1]: nums[j],nums[j+1]...

2018-08-04 16:29:20 261

原创 python 数据结构 栈和队列= =

本人菜鸟一枚,如果哪里写的不对,请大佬多多指正,谢谢啦!!!!class Stack: def __init__(self): self.__list=[] def push(self,item): return self.__list.append(item) def pop(self): return self.__...

2018-08-04 15:43:15 163

原创 python 数据结构 树的实现

本人菜鸟一枚,如果大佬发现不对,请多指正,谢谢啦!!!class Node(): def __init__(self,item): self.item=item self.lchild=None self.rchild=None class Tree(): def __init__(self): ...

2018-08-04 15:41:35 318

原创 python数据结构-单链表

class Node(): def __init__(self,item): self.item=item self.next=None class SingleList(): def __init__(self): self.__head=None def is_empty(self): retu...

2018-08-04 15:35:47 189

原创 初学LINUX的小技能

安装命令Sudo apt_get installCd- 返回上一个菜单目录Cd~ 返回HomeTouch 创建文件Ls-l 显示文件全部信息Ls-a 显示所有文件包括隐藏文件Cp -i file1 file1copy -i提示是否覆盖Cp-r colder1/colder2/ 复制整个文件夹Cp file* 复制所有的file开头的文件Mkdir 创建文件夹...

2018-08-03 15:12:45 122

转载 Levenshtein简介

最近在文字处理,用到Levenshtein这个包,发现一篇好文,转自https://www.jb51.net/article/98449.htm至于要装Levenshtein这个包,而又不想装VC+的可以向我伸手,看见的话会发一下whl文件编辑距离:又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少的编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字...

2018-07-30 17:30:30 19705 4

原创 python 随机森林参数说明

写在前面的话:本人刚刚学sklearn,很多参数也不是很懂,英语又比较low,只能求助google翻译,若有不对的地方,请大佬指出来。Sklearn.ensemble.RandomForstClassifier 参数说明Sklearn.ensemble.RandomForstClassifier(n_estimators=10, criterion=’gini’, max_depth=No...

2018-07-27 15:01:23 8287

原创 sklearn svm.LinearSVC的参数说明

写在前面的话:本人刚刚学sklearn,很多参数也不是很懂,英语又比较low,只能求助google翻译,若有不对的地方,请大佬指出来。Sklearn.svm.LinearSVC参数说明与参数kernel ='linear'的SVC类似,但是以liblinear而不是libsvm的形式实现,因此它在惩罚和损失函数的选择方面具有更大的灵活性,并且应该更好地扩展到大量样本。此类支持密集和稀疏...

2018-07-27 14:29:11 27569

原创 SVM.SVC参数说明

写在前面的话:本人刚刚学sklearn,很多参数也不是很懂,英语又比较low,只能求助google翻译,若有不对的地方,请大佬指出来。Sklearn.svm.SVC参数设置Sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto’, coef0=0.0, shrinking=True, probability=False,tol=...

2018-07-27 14:11:44 4506 1

原创 sklearn逻辑回归参数说明

写在前面的话:本人刚刚学sklearn,很多参数也不是很懂,英语又比较low,只能求助google翻译,若有不对的地方,请大佬指出来。Sklearn 逻辑回归参数Sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True,intercept...

2018-07-27 13:48:46 13392 2

原创 整理下tesseract安装时候的问题

该跳的坑都跳了,不该跳的也跳了。以下是安装时的坑系统环境变量原来的是改过之后的是用户环境变量改成然后在idle中调用时,需要改下pytesseract.py中的tesseract_cmd这个东西改成tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'这个样子,然后ok...

2018-07-24 15:57:27 516

原创 collections.Counter 计数器 elements()

Counter是一个简单的计数器,例如,统计字符出现的个数s='abcdefg'collections.Counter(s)Counter({'a': 1, 'b': 1, 'c': 1, 'd': 1, 'e': 1, 'f': 1, 'g': 1})elements()返回一个迭代器。元素被重复了多少次,在该迭代器中就包含多少个该元素。元素排列无确定顺序,个数小于1的元素不被包含。collec...

2018-06-12 17:05:55 492

原创 可变长参数元组

编写一个函数,接收任意个数的参数并返回它们的和。def fun(*args):    sum1=0    for i in args:        sum1=sum1+i    return sum1以*开头的参数名会收集所有的参数到一个元组上。收集的反面是分散,如果有一个序列的值想将他们作为可变长参数传入到函数中,也可使用*操作符。t=(7,3)divmod(*t)...

2018-06-07 16:30:10 808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除