基于短文本内容的推荐

最新推荐文章于 2022-01-06 16:48:14 发布

china_onepeople

最新推荐文章于 2022-01-06 16:48:14 发布

阅读量1k

点赞数 1

分类专栏：菜鸟推荐文章标签：推荐文本

本文链接：https://blog.csdn.net/china_onepeople/article/details/98211912

版权

菜鸟推荐专栏收录该内容

1 篇文章 0 订阅

订阅专栏

@TOC文本相似性推荐

对于最近做的相关工作，做一个总结

对应的代码：

import math
import jieba
import jieba.posseg as psg
from gensim import corpora, models,similarities

def get_stopword_list():
# 停用词表存储路径，每一行为一个词，按行读取进行加载
# 进行编码转换确保匹配准确率
stop_word_path = ‘./stopword.txt’
stopword_list = [sw.replace(’\n’, ‘’) for sw in open(stop_word_path,encoding=‘utf-8’).readlines()]
return stopword_list

分词方法，调用结巴接口

def seg_to_list(sentence, pos=False):
if not pos:
# 不进行词性标注的分词方法
seg_list = jieba.cut(sentence)
else:
# 进行词性标注的分词方法
seg_list = psg.cut(sentence)
return seg_list

去除干扰词

def word_filter(seg_list, pos=False):
stopword_list = get_stopword_list()
filter_list = []
# 根据POS参数选择是否词性过滤
## 不进行词性过滤，则将词性都标记为n，表示全部保留
for seg in seg_list:
if not pos:
word = seg
flag = ‘n’
else:
word = seg.word
flag = seg.flag
if not flag.startswith(‘n’):
continue
# 过滤停用词表中的词，以及长度为<2的词
if not word in stopword_list and len(word) > 1:
filter_list.append(word)

return filter_list

def topk_sort(k,sim):
# topk
y = []
i = 0
for i in range(0, k):
y.append(sim[i])
return y

if name == ‘main’:
Divid_lists=[]
compare_article = []
with open(’./data/convert_text.txt’,‘r’,encoding=‘utf-8’) as f :
i=0
for line in f:
i=i+1
text = line.strip()
pos = False
seg_list = seg_to_list(text, pos)
# print([list for list in seg_list])
filter_list = word_filter(seg_list, pos)
list = [list for list in filter_list]
Divid_lists.append(list)
if i==24:
compare_article.extend(list)

    Divid_lists_dictionary = corpora.Dictionary(Divid_lists)  #[(id,单词)] 有数字有文字
    # print(Divid_lists_dictionary.token2id)
    corpus = [Divid_lists_dictionary.doc2bow(stu) for stu in Divid_lists]
    # print(corpus)

    tfIdf_model = models.TfidfModel(corpus)

    corpus = [Divid_lists_dictionary.doc2bow(stu) for stu in Divid_lists]
    # for tiidf in tfIdf_model[corpus]:
        # print(tiidf)
    compare_article_bow = Divid_lists_dictionary.doc2bow(compare_article)
    # print(compare_article_bow)
    # print(tfIdf_model[compare_article_bow])
    #相似度计算
    index = similarities.SparseMatrixSimilarity(tfIdf_model[corpus],num_features=len(Divid_lists_dictionary.keys()))
    sim = index[tfIdf_model[compare_article_bow]]
    x = sorted(enumerate(sim),key=lambda x:x[1],reverse=True)
    print(x)
    y = topk_sort(5,x)
    print(y[0][0])

相关工作
我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：
1.思路的形成：
在做新闻推荐的时候，考虑到全是文本信息，优先考虑了基于内容的推荐，但是怎样从文本中提取重要的表征信息再和传统余弦相似结合做一个topN的推荐呢
2.文本的信息表示：
考虑了文本的TF-IDF的算法
思路：对文档进行分词，集合算法，将每个文档的信息用TF-IDF的权重向量化表示出来，将已有的文档做汇总，生成对应的n维矩阵，每当用户浏览了一个新闻文档，就把对应的相似的文档推荐给用户，本身是没有对相似的可靠性做评估，所以还有一个实验过程。从代码的时间的复杂度来看，很耗时间。

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash