- 博客(17)
- 收藏
- 关注
原创 向量化算法 doc2vec
from gensim.models.doc2vec import Doc2Vec,TaggedDocument import pandas as pddef D2V(): article = pd.read_excel('data.xlsx') #data为训练集,繁体 sentences = article['内容'].tolist() split_sentences = [] for i in sentences: split.
2022-05-03 10:18:05 1044
原创 向量化算法 word2vec
import loggingfrom gensim.models import word2vecdef getmodel(): logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # 加载《人民的名义》文本 sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt...
2022-05-03 10:17:15 948 1
原创 数据预处理之数据清洗
import numpy as np import pandas as pd #读取数据 df=pd.read_csv('/data/workspace/myshixun/step1/train.csv')##### begin ##### #查看列中是否存在空值 temp=df.isnull().any() print(temp)#使用SimpleImputer取出缺失值所在列的数值,sklearn当中特征矩阵必须是二维才能传入 使用reshape(-1,1)升维 ag.
2022-04-26 15:27:27 986
原创 句法分析的常用方法与实战
第一关from pyhanlp import HanLPtext=input()# 任务:使用pyhanlp对text进行关键词提取并输出前两个关键词# ********** Begin *********#document =text print(HanLP.extractKeyword(document, 2)) # ********** End **********#第2关from pyhanlp import HanLPtext=input()# 任务:使
2022-04-21 16:58:43 1933
原创 HBase 数据库设计之 RowKey
package step1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.ut.
2022-04-19 14:11:40 6439 5
原创 LDA 算法
import jiebaimport jieba.analyse as analyseimport gensimfrom gensim import corpora, models, similarities# 停用词表加载方法def get_stopword_list(): # 停用词表存储路径,每一行为一个词,按行读取进行加载 # 进行编码转换确保匹配准确率 stop_word_path = './stopword.txt' stopword_list =.
2022-04-07 17:13:57 1986
原创 HBase开发: Java API 管理表
package step1; import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.*;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.*; public class Task { public void s.
2022-04-06 08:49:34 3119
原创 HBase开发:表的扫描与扫描的缓存和批量处理
第一关package step1;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.
2022-03-30 08:41:55 1839
原创 词性标注 python
import jieba.posseg as 江南text=input()#任务:使用jieba模块的函数对text完成词性标注并将结果存储到result变量中# ********** Begin *********#words = 江南.cut(text)for word, flag in words:print('%s/%s' % (word, flag),end=' ')...
2022-03-24 23:16:28 1952
原创 统计分词法 统计分词原理与实战
classHMM(object):def__init__(self):self.state_list=['B','M','E','S']self.start_p={}self.trans_p={}self.emit_p={}self.model_file='hmm_model.pkl'self.trained=Falsedef...
2022-03-24 17:11:45 3813 2
原创 规则分词法
第一关defcutA(sentence,dictA):# sentence:要分词的句子#dictA:机器词典 result =[]#存放分好的词 sentenceLen =len(sentence)#待分词字段长度 n =0 maxDictA =max([len(word)forwordindictA])#取词典中最长词条的字符长度whilesentenceLen>0:...
2022-03-24 16:53:01 556
原创 TF/IDF 算法
第一关text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务:完成对text文本的词频统计,将结果保存到counts字典中#**********Begin*********#forwor...
2022-03-24 16:40:31 629
原创 HBase 开发:批量操作
第 1 关:批量获取数据package step1;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellScanner;import org.apache.hado
2022-03-23 08:50:11 4585
原创 头歌HBase 开发:使用Java操作HBase
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;import...
2022-03-16 09:22:14 12941 4
原创 统计分词法;词频统计;头歌
text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务:完成对text文本的词频统计,将结果保存到counts字典中#**********Begin*********#forwordin...
2022-03-10 17:40:17 2767
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人