众所周知,现阶段我们正处于一个"大数据"时代,从互联网上大量的数据中找到自己想要的信息变得越来困难,搜索引擎的商业化给市场带来了百度和谷歌这样的商业公司。网络爬虫便是搜索引擎的重要组成部分。
本课题是基于Python设计的面向下厨房网站的网络爬虫程序,目的是设计出能爬取下厨房站点中用户感兴趣菜谱食物且进行存储的爬虫,并阐述了为何使用面向主题的爬行策略以及网络爬虫的原理。对本周最受欢迎的食谱和新秀食谱进行爬取,对采集获得的食物制作方法数据进行初步处理,得到原始文本的食谱数据,包含了脱敏处理后的食谱名称、用料、做法、时间,食物图片等内容,根据分析的需要,从数据中抽取出“具体做法”一列。本爬虫的数据分析系统使用python技术开发,使用django框架,结合mysql数据库平台,搭建pycharm系统框架,完成数据爬取,实现系统过程,并把数据存储到数据库中,转换为可视化图形识别的格式。本文首先通过文献调研,分析课题研究现状,接着分析系统技术,然
本应用采集目前的下厨房网站的食谱内容,对本周最受欢迎的食谱和新秀食谱进行爬取,对采集获得的食物制作方法数据进行初步处理,得到原始文本的食谱数据,包含了脱敏处理后的食谱名称、用料、做法、时间,食物图片等内容,根据分析的需要,从数据中抽取出“具体做法”一列。
(2)数据预处理:
原始数据中存在异常值、重复值、系统自动推荐等数据,这部分数据价值含量低、数据结构混乱,严重影响数据挖掘模型的执行效率,导致挖掘结果的偏差,所以进行数据清洗是必不可少的。结合原始数据的具体情况,数据预处理采用文本去重、机械压缩去词和短句删除。
(3)中文分词及用户关注点:
中文分词是将句子中汉字按照序列切成一个个单独的中文词语,结巴词库提供了精确模式、全模式和搜索引擎模式三种分词模式,是Python中一个重要的第三方中文分词函数库。Jieba词库能够支持中文简体和繁体,在分析用户评论中能够对文本评论数据提取关键词。
用户关注点是用户对某一商品特定属性的关注点,反映客户在某种商品上的聚焦点,关注某一特性的用户数量越高,说明该商品的这一属性对用户来说越重要,一般是食谱标题、所用原料、具体做法、食物图片。分析利用Jieba词库,结合用户用词习惯,设置以“家常菜”、“快手菜”、“下饭菜”、”早餐”、“减肥”、“烘焙”、“小吃”、“汤羹”八个为用户常关注的属性。