楊咩咩呀-CSDN博客

原创微信公众号情侣推送Java版本

情侣微信公众号推送Java版本

2022-08-24 13:33:49 368 1

from gensim.models.doc2vec import Doc2Vec,TaggedDocument import pandas as pddef D2V(): article = pd.read_excel('data.xlsx') #data为训练集，繁体 sentences = article['内容'].tolist() split_sentences = [] for i in sentences: split.

2022-05-03 10:18:05 1172

原创向量化算法 word2vec

import loggingfrom gensim.models import word2vecdef getmodel(): logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # 加载《人民的名义》文本 sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt...

2022-05-03 10:17:15 1020 1

原创数据预处理之数据清洗

import numpy as np import pandas as pd #读取数据 df=pd.read_csv('/data/workspace/myshixun/step1/train.csv')##### begin ##### #查看列中是否存在空值 temp=df.isnull().any() print(temp)#使用SimpleImputer取出缺失值所在列的数值，sklearn当中特征矩阵必须是二维才能传入使用reshape(-1,1)升维 ag.

2022-04-26 15:27:27 1033

原创句法分析的常用方法与实战

第一关from pyhanlp import HanLPtext=input()# 任务：使用pyhanlp对text进行关键词提取并输出前两个关键词# ********** Begin *********#document =text print(HanLP.extractKeyword(document, 2)) # ********** End **********#第2关from pyhanlp import HanLPtext=input()# 任务：使

2022-04-21 16:58:43 2278

原创 HBase 数据库设计之 RowKey

package step1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.ut.

2022-04-19 14:11:40 7197 5

原创 LDA 算法

import jiebaimport jieba.analyse as analyseimport gensimfrom gensim import corpora, models, similarities# 停用词表加载方法def get_stopword_list(): # 停用词表存储路径，每一行为一个词，按行读取进行加载 # 进行编码转换确保匹配准确率 stop_word_path = './stopword.txt' stopword_list =.

2022-04-07 17:13:57 2078

原创 HBase开发： Java API 管理表

package step1; import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.*;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.*; public class Task { public void s.

2022-04-06 08:49:34 3539

原创 HBase开发：表的扫描与扫描的缓存和批量处理

第一关package step1;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.

2022-03-30 08:41:55 2059

原创 Phoenix入门

第一关先cd /opt再写下面的

2022-03-27 22:19:02 1703 2

原创词性标注 python

import jieba.posseg as 江南text=input()#任务：使用jieba模块的函数对text完成词性标注并将结果存储到result变量中# ********** Begin *********#words = 江南.cut(text)for word, flag in words:print('%s/%s' % (word, flag),end=' ')...

2022-03-24 23:16:28 2015

原创统计分词法统计分词原理与实战

classHMM(object):def__init__(self):self.state_list=['B','M','E','S']self.start_p={}self.trans_p={}self.emit_p={}self.model_file='hmm_model.pkl'self.trained=Falsedef...

2022-03-24 17:11:45 4100 2

原创规则分词法

第一关defcutA(sentence,dictA):# sentence：要分词的句子#dictA：机器词典 result =[]#存放分好的词 sentenceLen =len(sentence)#待分词字段长度 n =0 maxDictA =max([len(word)forwordindictA])#取词典中最长词条的字符长度whilesentenceLen>0:...

2022-03-24 16:53:01 617

原创 TF/IDF 算法

第一关text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务：完成对text文本的词频统计，将结果保存到counts字典中#**********Begin*********#forwor...

2022-03-24 16:40:31 669

原创 HBase 开发：批量操作

第 1 关：批量获取数据package step1;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellScanner;import org.apache.hado

2022-03-23 08:50:11 4875

原创头歌HBase 开发：使用Java操作HBase

第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;import...

2022-03-16 09:22:14 14469 4

原创统计分词法；词频统计；头歌

text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务：完成对text文本的词频统计，将结果保存到counts字典中#**********Begin*********#forwordin...

2022-03-10 17:40:17 3359