b计划撸站--内容采集筛选

最新推荐文章于 2024-05-10 16:14:40 发布

卑微的自学者

最新推荐文章于 2024-05-10 16:14:40 发布

阅读量7.5w

点赞数 2

分类专栏： b计划文章标签：百度 python seo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29263579/article/details/115841771

版权

b计划专栏收录该内容

1 篇文章 0 订阅

订阅专栏

采集内容源的筛选标准及建议

寻找优质内容源
标准

目标内容量丰富
内容噪音相对较少或者比较容易处理
对于非可原创的内容，内容的信息比较全面。容易采集和处理，结构化信息完整

诗歌
作者，出处，注释，作者介绍，朝代，分类
名人名言
作者，出处，背景

对于可原创的内容，在百度上信息量较少，或者内容质量比较高，二次处理比较方便

作文，星座，游戏
自媒体
非拼接类的内容

寻找
关键词覆盖率，查找那些排名靠前的站点
       对于我们要做的这批关键词，百度的喜好是什么样的？
       通过拿一批关键词去跑覆盖了，分析排名靠前的站点，他们的内容是怎么做的
使用baiducover.py进行百度的关键词覆盖率查询
       需要安装的包 pip install requests lxml openpyxl -i https://pypi.doubanio.com/simple
           采集解析 excel表格处理
       lxml 需要下载进行安装 cmd>>cd C:\Users\Administrator\Desktop>>
       pip install lxml-4.6.3-cp38-cp38-win_amd64.whl 即可安装完成

用什么样的内页，内容的来源
行业相关的app，自媒体

头条，uc，企鹅号，微信，淘金阁

一些比较少的人注意的地方：github

通过关键词覆盖查找内容源及分析对手做法

使用baiducover.py进行百度的关键词覆盖率查询来查找自己的内容源参考对手网站

目标内容进行采集策略

根据关键词采集内容

根据关键词采集内容

---利用百度以及网站自身的借口进行

---百度 site：域名关键词

站内搜索接口

内容数量有限

一通刷，只要是目标内容全部采集建议用这种

内容相对较多，方便后期处理

对于公共数据

先采集自身数据库 ()

在去源站采集

自己去采集内容

入库（重要）

内容处理

去其糟粕

包含特定词语（噪音）的句子或段落全部不要

中英文标点及特殊符号处理

段落数量处理（段落的拆分和组合）

句子长度

部分伪原创

剔除无用句

信息完善

要打开e

使用脚本 article-inserter.py （去除html标签，去连接，）

获取（127.0.0.1:8080/api/add）(127.0.0.1:8080/api/get)

目标站采集及代理池搭建

使用脚本 article-inserter.py

获取api接口地址（127.0.0.1:8080/api/add）

采集站点（去5118找到行业词库里面的，行业代表网站）

重要入库需要

这是入库的程序

pip3 install elasticsearch -i https://pypi.doubanio.com/simple

开启重要

打开cmd cd D:\planb\elasticsearch-7.4.2

d:

.\bin\elasticsearch.bat

测试http://127.0.0.1:9200/_cat/indices?v

这是安装结巴用的代码

pip install jieba -i https://pypi.doubanio.com/simple

使用打开article-inserter.py 脚本的方法（筛选，内容出重修改）

cmd >> cd D:\planb\第五步、内容入库 >> d: >> python article-inserter.py

火车头内容入库

火车头发文章到服务器

文章发布流程和标题重写流程

34.关键词入库和处理

*.{1,3}\n 正则替换三个字的标题为空

#，.,?

.*\?.*\n 去掉？

\s+ 去掉空格

.*[a-z]+.*\n 去掉字母

.*[^\d]?\d\n

使用 mysql-woed.py脚本入库

35，根据关键词批量获取内容

使用gei-article.py脚本获取es文章并且发布

36，windows系统安装mysql环境

37，文章发布实战

1，使用keyword-classify.py脚本先分词

2，jiemeng.csv文件查看分类好的关键词，进行对网站做导航分类

3，使用get-article.py发布

100.新脚本的讲解

insertoes.py火车头入库同时运行 main.py脚本

main.py就是去重使用的

get-article.py脚本是出库的

先打开es

火车头采集设置好文章txt 》》》》 cd 盘符 d：改cmd 地址----打开uvicorn使用教程txt的代码到cmd输入运行

打开Google 输入127.0.0.1:8080/?username=admin&password=admin >>>>> 删除里面的索引是 127.0.0.1:8080/api/delete/{索引名称}?username=admin&password=admin

运行insertoes.py脚本 >>>> folder= 文件夹名称采集的名称 copyfrom =“索引名” 线程改下端口设置 127.0.0.1:8080

新建cmd python insertoes.py 脚本运行

重要（es，app）cmd都要运行起来

运行phpstudy

mysql-keyword.py 脚本关键词入mysql数据库里

运行phpstudy

运行get-article.py脚本网站的搭建好之后 jiekou.php 找到

卑微的自学者

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
b计划撸站--内容采集筛选

采集内容源的筛选标准及建议寻找优质内容源标准目标内容量丰富内容噪音相对较少或者比较容易处理对于非可原创的内容，内容的信息比较全面。容易采集和处理，结构化信息完整诗歌作者，出处，注释，作者介绍，朝代，分类名人名言作者，出处，背景对于可原创的内容，在百度上信息量较少，或者内容质量比较高，二次处理比较方便作文，星座，游戏自媒体非拼接类的内容寻找关键...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。