python能爬取网站后台数据_数据爬取后台（PHP+Python）联合作战

weixin_39897392

于 2020-12-03 02:46:26 发布

阅读量2.1k

点赞数

文章标签： python能爬取网站后台数据

一. 项目声明

本项目从前端，到后台，以及分布式数据抓取，乃我一个人所写，因此项目并不太完善！在语义分析以及数据处理上并不能尽如意。但是极大的减轻了编辑的工作量！

二. 项目所用技术

本项目中前端采用bootstrap栅格系统布局，后台服务端语言采用PHP，数据抓取所用Python完成 (scrapy/requests/BeautifulSoup/threading/selenium/jieba)

三. 项目说明

1.拿到对应的关键词 -〉从百度知道找出对应的问题;

2.得到对应的问题 -〉搜全网，排名前10篇的文章(过滤掉百度知道的文章正文，通过特征库过滤一些官网与专题页面等)

3.得到的对应正文 -〉将得到的文章，进行去头，去尾。随机拼接！

4.数据处理-〉用遗忘算法，对处理数据进行筛选，过滤品牌词！ (目前暂未完善，避免误删除，导致文本不通顺，目前只是标红，训练该特征模型)

5.本项目基于多线程！可扩展成多进程(因为不考虑效率，加之本机电脑配置较低，所以采用的是单进程下的多线程！)

四. 项目仍需完善之处

1.文本语义不通顺，不能完全机器识别运用(任然需要人工审核)，特征库不完善。

2.过滤品牌词，仍然存在有一些特殊的品牌词过滤不掉的问题

3.没有实现无监督学习，对自然语言分析(NLP)任然不熟悉！导致这些问题，无法解决！

五.该项目需要准备

1.IP代理池来源于(免费IP提供商)

2.下载github开源的分词库(jieba)

3.采用selenium抓取，充分模拟浏览器行为，因此要有一个无头浏览器作为工具

六.项目截图：

七.结言：

本项目仍处于开发阶段，希望各位自然语言处理的大佬，能给予一些数据清洗方面的帮助！感激不尽！

公司项目，暂不提供源码... 仅探讨思路！

联系Email：rianleycheng@gmail.com

联系QQ：2855132411

weixin_39897392

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python能爬取网站后台数据_数据爬取后台（PHP+Python）联合作战

一.项目声明本项目从前端，到后台，以及分布式数据抓取，乃我一个人所写，因此项目并不太完善！在语义分析以及数据处理上并不能尽如意。但是极大的减轻了编辑的工作量！二.项目所用技术本项目中前端采用bootstrap栅格系统布局，后台服务端语言采用PHP，数据抓取所用Python完成 (scrapy/requests/BeautifulSoup/threading/selenium/jieba)三....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。