自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 微信公众号情侣推送Java版本

情侣微信公众号推送Java版本

2022-08-24 13:33:49 316 1

原创 向量化算法 doc2vec

from gensim.models.doc2vec import Doc2Vec,TaggedDocument import pandas as pddef D2V(): article = pd.read_excel('data.xlsx') #data为训练集,繁体 sentences = article['内容'].tolist() split_sentences = [] for i in sentences: split.

2022-05-03 10:18:05 1044

原创 向量化算法 word2vec

​import loggingfrom gensim.models import word2vecdef getmodel(): logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # 加载《人民的名义》文本 sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt...

2022-05-03 10:17:15 948 1

原创 数据预处理之数据清洗

import numpy as np import pandas as pd #读取数据 df=pd.read_csv('/data/workspace/myshixun/step1/train.csv')##### begin ##### #查看列中是否存在空值 temp=df.isnull().any() print(temp)#使用SimpleImputer取出缺失值所在列的数值,sklearn当中特征矩阵必须是二维才能传入 使用reshape(-1,1)升维 ag.

2022-04-26 15:27:27 986

原创 句法分析的常用方法与实战

第一关from pyhanlp import HanLPtext=input()# 任务:使用pyhanlp对text进行关键词提取并输出前两个关键词# ********** Begin *********#document =text print(HanLP.extractKeyword(document, 2)) # ********** End **********#第2关from pyhanlp import HanLPtext=input()# 任务:使

2022-04-21 16:58:43 1933

原创 HBase 数据库设计之 RowKey

package step1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.ut.

2022-04-19 14:11:40 6439 5

原创 LDA 算法

import jiebaimport jieba.analyse as analyseimport gensimfrom gensim import corpora, models, similarities# 停用词表加载方法def get_stopword_list(): # 停用词表存储路径,每一行为一个词,按行读取进行加载 # 进行编码转换确保匹配准确率 stop_word_path = './stopword.txt' stopword_list =.

2022-04-07 17:13:57 1986

原创 HBase开发: Java API 管理表

package step1; import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.*;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.*; public class Task { public void s.

2022-04-06 08:49:34 3119

原创 HBase开发:表的扫描与扫描的缓存和批量处理

第一关package step1;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.

2022-03-30 08:41:55 1839

原创 Phoenix入门

第一关先cd /opt再写下面的

2022-03-27 22:19:02 1660 2

原创 词性标注 python

import jieba.posseg as 江南text=input()#任务:使用jieba模块的函数对text完成词性标注并将结果存储到result变量中# ********** Begin *********#words = 江南.cut(text)for word, flag in words:print('%s/%s' % (word, flag),end=' ')...

2022-03-24 23:16:28 1952

原创 统计分词法 统计分词原理与实战

classHMM(object):def__init__(self):self.state_list=['B','M','E','S']self.start_p={}self.trans_p={}self.emit_p={}self.model_file='hmm_model.pkl'self.trained=Falsedef...

2022-03-24 17:11:45 3813 2

原创 规则分词法

第一关defcutA(sentence,dictA):# sentence:要分词的句子#dictA:机器词典 result =[]#存放分好的词 sentenceLen =len(sentence)#待分词字段长度 n =0 maxDictA =max([len(word)forwordindictA])#取词典中最长词条的字符长度whilesentenceLen>0:...

2022-03-24 16:53:01 556

原创 TF/IDF 算法

第一关text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务:完成对text文本的词频统计,将结果保存到counts字典中#**********Begin*********#forwor...

2022-03-24 16:40:31 629

原创 HBase 开发:批量操作

第 1 关:批量获取数据package step1;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellScanner;import org.apache.hado

2022-03-23 08:50:11 4585

原创 头歌HBase 开发:使用Java操作HBase

第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;import...

2022-03-16 09:22:14 12941 4

原创 统计分词法;词频统计;头歌

text=input()text=text.lower()#将特殊字符替换成为空格forchin'!@#$%:^&*()-.;':text=text.replace(ch,"")#对字符串通过空格进行分割words=text.split()counts={}#任务:完成对text文本的词频统计,将结果保存到counts字典中#**********Begin*********#forwordin...

2022-03-10 17:40:17 2767

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除