自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 项目实训报告-12 工作总结

项目经过大致一共经历了以下阶段1.了解主要任务2.后端小组经过沟通后,大致确认了YouTube等网站的爬取需要3.分配到YouTube的我最终确定了爬取数据以及其类型4.完成关于YouTube爬取的scrapy框架的基本文件的设计5.完成关于YouTube爬取的scrapy框架的spider.py的设计,并将数据爬取存入mysql数据库6.临时得到了要爬取新闻网站的任务7.分配到Worldjournal的我最终确定了爬取数据以及其类型8.完成关于Worldjourna

2021-07-25 16:20:51 158

原创 项目实训报告-11 (附加)爬取世界日报网设计

基本文件设计(即除了spider.py以外的文件设计)除了item.py以外其他的并没有太大改动item.py的设计如下:class WorldjournalspiderItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() n_url = scrapy.Field() n_title = scrapy.Field() n_scri

2021-07-25 15:53:12 131

原创 项目实训报告-10 (附加)爬取世界日报网初分析

爬取数据分析爬取的页面即为搜索页面:view-source:https://www.worldjournal.com/search/word/8877/XXX首先确定爬取以下数据:标题:新闻的标题是毋庸置疑要爬取的简介:新闻的简介选取了搜索结果中对新闻的简单介绍发布时间:也是比较重要的信息分类:这个存在于网页html代码中链接:即URL建立数据库表根据所需爬取数据建立如下数据库表...

2021-07-25 15:45:06 131 1

原创 项目实训报告-9 网页的翻页与拉页问题(未解决)

在爬取youtube搜索结果时,遇到了不能爬取第二页的问题正常的网页是分页浏览,而youtube的页面是下拉式的翻页设计,所以不了解怎么进行翻页此问题待后续解决

2021-07-19 00:17:56 108

原创 项目实训报告-8 代理错误解决

因为爬取youtube信息难免需要用到网络代理,其中也果不其然遇到了问题关于错误:URL ERROR[errno10061]经搜索查询学习后发现该错误可以通过首先通过middleware.py里的proxymiddleware类中的init方法中设置好代理服务器的ip然后在setting.py中导入即可之后便可进行youtube网页的爬取...

2021-07-18 22:18:28 85

原创 项目实训报告-7 spider.py的设计

完成关于pipeline.py、setting.py以及middleware.py的设计后,便初步完成了spider.py的设计主要分为三个部分一.初始化数据def __init__(self, keywords='vtuber', video_time_long="1000", video_time_short="0", task_id=2, startDate=int(time.time()) - 3600 * 48 *7, endDate=int..

2021-07-18 16:32:03 128

原创 项目实训报告-6 深入了解Setting

了解setting.py参考文档http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-refAUTOTHROTTLE_START_DELAY = 3开始下载时限速并延迟时间AUTOTHROTTLE_MAX_DELAY = 60高并发请求时最大延迟时间AWS_ACCESS_KEY_ID用于访问亚马逊网络服务。默认值:无AWS_ACCESS_KEY_ID它是用于

2021-07-11 09:37:19 94

原创 项目实训报告-5 深入了解Pipeline

了解pipeline.pypipeline类参数解释:class SomethingPipeline(object): def __init__(self): # 可选实现,做参数初始化等 # 写入你的业务逻辑 def process_item(self, item, spider): # item (Item 对象) – 爬取数据的item # spider (Spider 对象) – 爬取该item的sp

2021-07-10 23:22:42 160

原创 项目实训报告-4 深入了解item

了解Items.py它的作用主要是用来处理获取的的数据,做数据清洗等操作item对象主要是用来存储爬去数据,并对数据进行处理等等。类似于Python的字典,可以使用dict API进行获取参数。API:product.keys() 用于获取所有键值product.items()获取所有键值修改Items.py于是根据数据库建立共完成以下对象创建class User(scrapy.Item):#设置用户所需爬取信息 user_name = scrapy.Fiel.

2021-07-10 22:16:02 96

原创 项目实训报告-3 了解Scrapy

经过决定运用Python Scrapy库进行数据爬取,于是开展了针对Scrapy的学习1.整体架构官方解析:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。架构理解:Scrapy Engine:即Scrapy引擎,负责综合控制各个事件,并调度各个部件;Scheduler:即调度器,从引擎接收信号后将数据入列,并可再次返回给引擎,用于决定操作的调度顺序;Downloader:即下载器,抓取.

2021-07-02 22:46:45 591

原创 项目实训报告-2 爬取数据确定

本次项目实训分取到的工作是从YouTube上爬取指定用户数据作为人物画像参考。分析后决定共爬取以下类别的数据(以用户にじさんじ为例):1.用户昵称用以对用户进行识别。2.用户头像用以对用户兴趣进行辅助判断。3.用户简介用以对用户进行进一步了解。5.用户推荐频道用以对用户的喜爱频道进行分析。6.用户粉丝量用以了解用户的影响力。7.用户发布视频及其播放量等信息...

2021-07-02 22:27:13 361

原创 项目实训报告-1 初步分析

1.项目名称智能人物画像综合分析系统2.需求概述根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。系统通过用户自行上传或埋点上报收集记录了用户大量信息,为便于各业务应用,将这些信息进行沉淀、加工和抽象,形成一个以用户标志为主key的标签树。并且结合算法模型,综合分析用户行为画像,构建立体化的人物分析系统。3.模块设计3.1智能数据融合模块运用Python爬虫从国内外各大社交网站,如Facebook、Twitter、微博等平台获取较大量的数据信

2021-07-01 20:32:21 260

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除