- 博客(27)
- 收藏
- 关注
原创 sklearn使用TFIDF进行文本关键字提取
# encoding=utf-8from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformercorpus = [ 'This This is the first document.', 'This This is the second second document.', ...
2018-06-25 17:43:21 7571
原创 根据决策树规则创建加强版aiml的规则
#-*-coding:utf8-*-import xlrddata = xlrd.open_workbook("E:/协和问答系统/SenLiu/voice.xlsx")question_file={}table = data.sheets()[1]nrows = table.nrowsline_keys={}for rowx in range(nrows): line_keys...
2018-06-25 09:36:39 386
原创 决策树生成的决策规则转化成正则表达式
#-*-coding:utf8-*-import jiebafile=open("Decision_rules.txt","r",encoding="utf8")write=open("template.txt","w",encoding="utf8")tongyici_file=open("E:/协和问答系统/SenLiu/同义词.txt","r&q
2018-06-25 09:29:48 1009
原创 决策树实现文本分类
如何使用决策树实现文本分类:1.分词模块: a.人工整理词库。 b.使用自己编写的词库和分词代码(添加词库的同时,删除影响词库的词)进行分词。2.进行one-hot编码: 在进行one-hot编码的同时,使用同义词对one-hot进行合并,同义词使用相同的id.3.使用sklearn里面的决策树进行计算,并且使用sklearn里面的自动化调参进行调参。代码如下:#!/usr/bin/en...
2018-06-25 09:25:39 9027 1
原创 直接插入排序算法设置哨兵
看了大话数据结构,学习386页直接插入排序设置哨兵。在计算最坏情况的时候,计算是准确的,但是代码的for出现问题,for应该换成while,如果不改成while就会变成3+4+....而不是2+3+...。...
2018-06-22 11:29:17 2271
转载 TextRank算法详解
TextRank算法是基于Google的PageRank算法的改进。PageRank学习链接TextRank学习链接两个问题:TextRank怎么能最后收敛?可以转化成马尔科夫链。TextRank计算的结果是否可以在决策树中当做权重进行使用?...
2018-06-22 10:19:40 3592
转载 大数据算法:对5亿数据进行排序
5亿数据不能全部加载到内存中,并且不能使用mapreduce,只能使用单机版。5亿数据进行排序学习链接排序算法分类内排序和外排序内排序和外排序的介绍
2018-06-20 17:00:52 3112 1
转载 数据结构之顺序查找优化
在一个list中查找是否包含key值的时候,都是遍历list中所有的元素,但是使用设置哨兵的方法,就可以节省很长时间。顺序查找优化学习链接如果a[0]就是key就会出现问题。...
2018-06-19 11:22:23 796 1
原创 Python根据字典中的值进行排序
d={"a":3,"b":2}print(sorted(d.items(),key=lambda x:x[1]))实验结果:"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/learn/learn/dict_sorted.py[('b', 2), ('a', 3)]Process finished with exit cod...
2018-06-11 14:42:56 2054
原创 Python中的Re找到字符串包含字符的所有位置
python字符串有find,index, rindex, 都是只能查找一次字符串出现的位置,就是没有查找字符串中包含某个字符的所有位置。#-*-coding:utf8-*-import relist=[i.start() for i in re.finditer('\\\\', 'C:\\Users\\aaa\\computer\\flicker\\01213.jpg')]print(li...
2018-06-11 13:41:23 24009 3
原创 leetcode中RemoveNthNodeFromEndofList
Given a linked list, remove the n-th node from the end of list and return its head.Example:Given linked list: 1->2->3->4->5, and n = 2.After removing the second node from the end, the li...
2018-06-10 16:47:47 228
原创 leetcode中LetterCombinationsofaPhoneNumber
class Solution: def letterCombinations(self, digits): """ :type digits: str :rtype: List[str] """ number_string={} number_string[2]=['a','b','c'] ...
2018-06-10 15:22:46 277
原创 jieba根据词库进行分词
jieba分词的时候并不能严格按照词库把词库中的词都能分成一个词,所以我们需要如下的处理:# -*- coding: UTF-8 -*-import jieba.possegimport pandas as pdimport csvimport reclass Statistica_segment(): """ 使用jieba分词对文件进行分词 """ def __init__(...
2018-06-10 10:03:02 3857
原创 leetcode中3sum
Given an array nums of n integers, are there elements a, b, c in nums such that a + b + c = 0? Find all unique triplets in the array which gives the sum of zero.Note:The solution set must not contain ...
2018-06-06 10:37:58 158
原创 Python中DataFrame选择某列值为XX的行
#-*-coding:utf8-*-import pandas as pdall_data=pd.read_csv("E:/协和问答系统/SenLiu/熵测试数据.csv")#获取某一列值为xx的行的候选列数据print(all_data)feature_data=all_data.iloc[:,[0,-1]][all_data[all_data.T.index[0]]=='青年']...
2018-06-05 15:14:31 11230
原创 Python实现groupby
from itertools import groupbyx=[1,2,3,1,2,3,2]result=groupby(sorted(x))for key,group in result: print(key,len(list(group)))计算结果:"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/csgwork/f...
2018-06-04 16:34:18 977
原创 Python判断两个list相等
Python2可以使用cmp()函数,但是在Python3中我们可以使用下面的方法来比较两个list是否相等学习连接import operatora=[1,-1,0]b=[1,-1,0]c=[-1,1,0]print(operator.eq(a,b))print(operator.eq(a,c))实验结果:D:\pycharmprogram\leetcode\venv\Scripts\...
2018-06-04 10:45:14 71245 6
转载 KD-Tree算法原理
上亿个数据,每个数据20个维度(也就是一个向量),给你一个数据如何快速找到和该数据最相似的前几个(kd-Tree思想)KD-Tree学习链接
2018-06-01 17:09:57 1619
原创 LDA主题模型的学习路线
LDA主题模型是一个数学知识非常复杂的模型可以rickjin的LDA数学八卦了解狄利克雷共轭分布,伽马函数->beta分布->狄利克雷共轭分布。想要了解LDA模型必须先知道PLSA模型,PLSA模型中需要EM算法,EM算法的学习见李航的统计学习方法。LDA通俗解释学习资料《LDA数学八卦》sklearn有LDA算法的实现,但是不是通过吉布斯采样来做的,而是通过EM算...
2018-06-01 10:56:12 790
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人