b计划撸站--内容采集筛选

采集内容源的筛选标准及建议

寻找优质内容源
标准

  1. 目标内容量丰富
  2. 内容噪音相对较少或者比较容易处理
  3. 对于非可原创的内容,内容的信息比较全面。容易采集和处理,结构化信息完整
  •         诗歌
  •             作者,出处,注释,作者介绍,朝代,分类
  •       名人名言
  •             作者,出处,背景
  1. 对于可原创的内容,在百度上信息量较少,或者内容质量比较高,二次处理比较方便
  •         作文,星座,游戏
  •         自媒体
  •         非拼接类的内容

寻找
关键词覆盖率,查找那些排名靠前的站点
        对于我们要做的这批关键词,百度的喜好是什么样的?
        通过拿一批关键词去跑覆盖了,分析排名靠前的站点,他们的内容是怎么做的
         使用baiducover.py进行百度的关键词覆盖率查询
         需要安装的包  pip install requests lxml openpyxl -i https://pypi.doubanio.com/simple
                                                     采集     解析    excel表格处理
        lxml 需要下载进行安装 cmd>>cd C:\Users\Administrator\Desktop>>
         pip install lxml-4.6.3-cp38-cp38-win_amd64.whl    
 即可安装完成                                 
        

        用什么样的内页,内容的来源
行业相关的app,自媒体

        头条,uc,企鹅号,微信,淘金阁


一些比较少的人注意的地方:github

 

通过关键词覆盖查找内容源及分析对手做法

     使用baiducover.py进行百度的关键词覆盖率查询  来查找自己的内容源参考对手网站

 

 

目标内容进行采集策略

根据关键词采集内容  

       根据关键词采集内容

       ---利用百度以及网站自身的借口进行

       ---百度  site:域名     关键词

      站内搜索接口

             

       内容数量有限

一通刷,只要是目标内容全部采集    建议用这种

      内容相对较多,方便后期处理

对于公共数据

    先采集自身数据库   ()

    在去源站采集

自己去采集内容

  入库(重要)

内容处理

去其糟粕

     包含特定词语(噪音)的句子或段落全部不要

    中英文标点及特殊符号处理

     段落数量处理(段落的拆分和组合)

     句子长度

     部分伪原创

     剔除无用句

     信息完善

要打开e

   使用脚本  article-inserter.py    (去除html标签,去连接,)

  获取(127.0.0.1:8080/api/add)(127.0.0.1:8080/api/get)

 

目标站采集及代理池搭建

 使用脚本  article-inserter.py 

  获取api接口地址(127.0.0.1:8080/api/add)

采集站点(去5118找到行业词库里面的,行业代表网站)

重要入库需要

这是入库的程序

pip3 install elasticsearch -i https://pypi.doubanio.com/simple

开启重要

打开cmd   cd D:\planb\elasticsearch-7.4.2

d:

.\bin\elasticsearch.bat

测试http://127.0.0.1:9200/_cat/indices?v

 

这是安装结巴用的代码

pip install jieba -i https://pypi.doubanio.com/simple

使用打开article-inserter.py 脚本的方法(筛选,内容出重修改)

cmd  >> cd D:\planb\第五步、内容入库  >>  d:  >>   python article-inserter.py

 火车头内容入库

 

火车头发文章到服务器

 

文章发布流程和标题重写流程

 

34.关键词入库和处理

*.{1,3}\n  正则替换三个字的标题为空

#,.,?

.*\?.*\n  去掉?

\s+    去掉空格

.*[a-z]+.*\n  去掉字母

.*[^\d]?\d\n

使用 mysql-woed.py脚本入库

35,根据关键词批量获取内容

使用gei-article.py脚本  获取es文章并且发布

 

36,windows系统安装mysql环境

 

37,文章发布实战

1,使用keyword-classify.py脚本  先分词

2,jiemeng.csv文件查看分类好的关键词 ,进行对网站做导航分类

3,使用get-article.py发布

 

100.新脚本的讲解

insertoes.py火车头入库 同时运行 main.py脚本

main.py就是去重使用的

get-article.py脚本是出库的

 

先打开es

火车头采集设置好文章txt    》》》》  cd  盘符   d:  改cmd 地址----打开uvicorn使用教程txt的 代码 到cmd输入 运行

  打开Google 输入127.0.0.1:8080/?username=admin&password=admin     >>>>>  删除里面的索引是 127.0.0.1:8080/api/delete/{索引名称}?username=admin&password=admin 

  运行insertoes.py脚本  >>>> folder= 文件夹名称采集的名称       copyfrom =“索引名”   线程改下    端口设置  127.0.0.1:8080

新建cmd   python insertoes.py  脚本    运行

重要(es,app)cmd都要运行起来

运行phpstudy

mysql-keyword.py 脚本  关键词入mysql数据库里

运行phpstudy

运行get-article.py脚本    网站的搭建好之后 jiekou.php 找到

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值