自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

转载 LSA潜在语义分析中SVD的三个矩阵介绍

奇异值分解在LSI中的应用LSI的学习连接

2018-06-29 10:05:25 742

转载 PCA深入剖析学习

PCA主成分分析是一个很好的降维的方法,深入剖析PCA在机器学习工程至关重要。PCA学习

2018-06-29 09:34:53 426

转载 关键词提取算法学习

下面链接是几种关键词提取算法textrank,TFIDF,LDA,PLSA,TRP关键词提取算法

2018-06-27 09:52:34 527

转载 TextRank算法实现关键句识别

算法介绍如下:算法学习链接开源代码如下:开源代码链接

2018-06-26 16:26:09 763

原创 sklearn使用TFIDF进行文本关键字提取

# encoding=utf-8from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformercorpus = [ 'This This is the first document.', 'This This is the second second document.', ...

2018-06-25 17:43:21 7571

原创 根据决策树规则创建加强版aiml的规则

#-*-coding:utf8-*-import xlrddata = xlrd.open_workbook("E:/协和问答系统/SenLiu/voice.xlsx")question_file={}table = data.sheets()[1]nrows = table.nrowsline_keys={}for rowx in range(nrows): line_keys...

2018-06-25 09:36:39 386

原创 决策树生成的决策规则转化成正则表达式

#-*-coding:utf8-*-import jiebafile=open("Decision_rules.txt","r",encoding="utf8")write=open("template.txt","w",encoding="utf8")tongyici_file=open("E:/协和问答系统/SenLiu/同义词.txt","r&q

2018-06-25 09:29:48 1009

原创 决策树实现文本分类

如何使用决策树实现文本分类:1.分词模块: a.人工整理词库。 b.使用自己编写的词库和分词代码(添加词库的同时,删除影响词库的词)进行分词。2.进行one-hot编码: 在进行one-hot编码的同时,使用同义词对one-hot进行合并,同义词使用相同的id.3.使用sklearn里面的决策树进行计算,并且使用sklearn里面的自动化调参进行调参。代码如下:#!/usr/bin/en...

2018-06-25 09:25:39 9027 1

原创 直接插入排序算法设置哨兵

看了大话数据结构,学习386页直接插入排序设置哨兵。在计算最坏情况的时候,计算是准确的,但是代码的for出现问题,for应该换成while,如果不改成while就会变成3+4+....而不是2+3+...。...

2018-06-22 11:29:17 2271

转载 TextRank算法详解

TextRank算法是基于Google的PageRank算法的改进。PageRank学习链接TextRank学习链接两个问题:TextRank怎么能最后收敛?可以转化成马尔科夫链。TextRank计算的结果是否可以在决策树中当做权重进行使用?...

2018-06-22 10:19:40 3592

转载 大数据算法:对5亿数据进行排序

5亿数据不能全部加载到内存中,并且不能使用mapreduce,只能使用单机版。5亿数据进行排序学习链接排序算法分类内排序和外排序内排序和外排序的介绍

2018-06-20 17:00:52 3112 1

转载 数据结构之顺序查找优化

在一个list中查找是否包含key值的时候,都是遍历list中所有的元素,但是使用设置哨兵的方法,就可以节省很长时间。顺序查找优化学习链接如果a[0]就是key就会出现问题。...

2018-06-19 11:22:23 796 1

转载 sklearn可以使用GridSearchCV进行自动化调参

GridSearchCV学习链接如下:官网链接学习博客

2018-06-15 10:29:25 746

转载 tf.nn.embedding_lookup函数的用法

学习连接

2018-06-13 15:16:43 232

原创 Python根据字典中的值进行排序

d={"a":3,"b":2}print(sorted(d.items(),key=lambda x:x[1]))实验结果:"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/learn/learn/dict_sorted.py[('b', 2), ('a', 3)]Process finished with exit cod...

2018-06-11 14:42:56 2054

原创 Python中的Re找到字符串包含字符的所有位置

python字符串有find,index, rindex, 都是只能查找一次字符串出现的位置,就是没有查找字符串中包含某个字符的所有位置。#-*-coding:utf8-*-import relist=[i.start() for i in re.finditer('\\\\', 'C:\\Users\\aaa\\computer\\flicker\\01213.jpg')]print(li...

2018-06-11 13:41:23 24009 3

原创 leetcode中RemoveNthNodeFromEndofList

Given a linked list, remove the n-th node from the end of list and return its head.Example:Given linked list: 1->2->3->4->5, and n = 2.After removing the second node from the end, the li...

2018-06-10 16:47:47 228

原创 leetcode中LetterCombinationsofaPhoneNumber

class Solution: def letterCombinations(self, digits): """ :type digits: str :rtype: List[str] """ number_string={} number_string[2]=['a','b','c'] ...

2018-06-10 15:22:46 277

原创 jieba根据词库进行分词

jieba分词的时候并不能严格按照词库把词库中的词都能分成一个词,所以我们需要如下的处理:# -*- coding: UTF-8 -*-import jieba.possegimport pandas as pdimport csvimport reclass Statistica_segment(): """ 使用jieba分词对文件进行分词 """ def __init__(...

2018-06-10 10:03:02 3857

原创 leetcode中3sum

Given an array nums of n integers, are there elements a, b, c in nums such that a + b + c = 0? Find all unique triplets in the array which gives the sum of zero.Note:The solution set must not contain ...

2018-06-06 10:37:58 158

原创 Python中DataFrame选择某列值为XX的行

#-*-coding:utf8-*-import pandas as pdall_data=pd.read_csv("E:/协和问答系统/SenLiu/熵测试数据.csv")#获取某一列值为xx的行的候选列数据print(all_data)feature_data=all_data.iloc[:,[0,-1]][all_data[all_data.T.index[0]]=='青年']...

2018-06-05 15:14:31 11230

原创 Python实现groupby

from itertools import groupbyx=[1,2,3,1,2,3,2]result=groupby(sorted(x))for key,group in result: print(key,len(list(group)))计算结果:"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/csgwork/f...

2018-06-04 16:34:18 977

原创 Python判断两个list相等

Python2可以使用cmp()函数,但是在Python3中我们可以使用下面的方法来比较两个list是否相等学习连接import operatora=[1,-1,0]b=[1,-1,0]c=[-1,1,0]print(operator.eq(a,b))print(operator.eq(a,c))实验结果:D:\pycharmprogram\leetcode\venv\Scripts\...

2018-06-04 10:45:14 71245 6

转载 KD-Tree算法原理

上亿个数据,每个数据20个维度(也就是一个向量),给你一个数据如何快速找到和该数据最相似的前几个(kd-Tree思想)KD-Tree学习链接

2018-06-01 17:09:57 1619

转载 随机采样方法学习

学习链接在学习LDA算法原理的时候,我们是用吉布斯采样来学习参数,吉布斯采样是随机采样算法的一种。

2018-06-01 15:04:22 833

转载 蒙特卡洛(Monte Carlo)法求定积分

学习链接在学习LDA的时候,需要使用随机采样算法计算狄利克雷共轭分布的参数。

2018-06-01 14:47:07 2860

原创 LDA主题模型的学习路线

LDA主题模型是一个数学知识非常复杂的模型可以rickjin的LDA数学八卦了解狄利克雷共轭分布,伽马函数->beta分布->狄利克雷共轭分布。想要了解LDA模型必须先知道PLSA模型,PLSA模型中需要EM算法,EM算法的学习见李航的统计学习方法。LDA通俗解释学习资料《LDA数学八卦》sklearn有LDA算法的实现,但是不是通过吉布斯采样来做的,而是通过EM算...

2018-06-01 10:56:12 790

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除