18年做了两个小程序,上线后也没啥流量,写点什么分享一下
第一个是爬取了一些网络文章,分类展示,如下图,数据爬取自搜狐
爬虫框架采用的scraypy,之前也写过一篇关于爬取阿里巴巴国际站爬虫的文章~~也是用的scrapy
这个爬虫很简单,大致代码如下,做了简单的网页分析后,抓取的其实是搜狐的接口而且是分页请求的
class ShSpider(scrapy.Spider):
name = 'sh'
start_urls = ['https://search.sohu.com/outer/search/news']
data = {
'keyword': '思维',
'size': '10',
'SUV': '1809052201174155',
'terminalType': 'pc',
'source': 'article',
'queryType': 'edit'
}
def start_requests(self):
print('请求中……')
for i in range(1, 20):
self.data['from'] = str(i * 10)
yield scrapy.http.FormRequest(
self.start_urls[0],
headers={'content-type': 'application/x-www-form-urlencoded'},
formdata=self.data)
def parse(self, response):
print(response.body.decode())
数据爬取保存到Mysql,部署阿里云服务器略过。。。。
接下来是小程序界面截图
详情页,使用wxParse做的网页标签解析
完整代码请转至github
https://github.com/MartingKing/KotmNews
项目已经上线,可扫描二维码查看具体功能