X103-CSDN博客

原创项目实训报告-12 工作总结

项目经过大致一共经历了以下阶段1.了解主要任务2.后端小组经过沟通后，大致确认了YouTube等网站的爬取需要3.分配到YouTube的我最终确定了爬取数据以及其类型4.完成关于YouTube爬取的scrapy框架的基本文件的设计5.完成关于YouTube爬取的scrapy框架的spider.py的设计，并将数据爬取存入mysql数据库6.临时得到了要爬取新闻网站的任务7.分配到Worldjournal的我最终确定了爬取数据以及其类型8.完成关于Worldjourna

2021-07-25 16:20:51 166

原创项目实训报告-11 （附加）爬取世界日报网设计

基本文件设计（即除了spider.py以外的文件设计）除了item.py以外其他的并没有太大改动item.py的设计如下：class WorldjournalspiderItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() n_url = scrapy.Field() n_title = scrapy.Field() n_scri

2021-07-25 15:53:12 144

原创项目实训报告-10 （附加）爬取世界日报网初分析

爬取数据分析爬取的页面即为搜索页面：view-source:https://www.worldjournal.com/search/word/8877/XXX首先确定爬取以下数据：标题：新闻的标题是毋庸置疑要爬取的简介：新闻的简介选取了搜索结果中对新闻的简单介绍发布时间：也是比较重要的信息分类：这个存在于网页html代码中链接：即URL建立数据库表根据所需爬取数据建立如下数据库表...

2021-07-25 15:45:06 143 1

原创项目实训报告-9 网页的翻页与拉页问题（未解决）

在爬取youtube搜索结果时，遇到了不能爬取第二页的问题正常的网页是分页浏览，而youtube的页面是下拉式的翻页设计，所以不了解怎么进行翻页此问题待后续解决

2021-07-19 00:17:56 119

原创项目实训报告-8 代理错误解决

因为爬取youtube信息难免需要用到网络代理，其中也果不其然遇到了问题关于错误：URL ERROR[errno10061]经搜索查询学习后发现该错误可以通过首先通过middleware.py里的proxymiddleware类中的init方法中设置好代理服务器的ip然后在setting.py中导入即可之后便可进行youtube网页的爬取...

2021-07-18 22:18:28 89

原创项目实训报告-7 spider.py的设计

完成关于pipeline.py、setting.py以及middleware.py的设计后，便初步完成了spider.py的设计主要分为三个部分一.初始化数据def __init__(self, keywords='vtuber', video_time_long="1000", video_time_short="0", task_id=2, startDate=int(time.time()) - 3600 * 48 *7, endDate=int..

2021-07-18 16:32:03 134

原创项目实训报告-6 深入了解Setting

了解setting.py参考文档http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-refAUTOTHROTTLE_START_DELAY = 3开始下载时限速并延迟时间AUTOTHROTTLE_MAX_DELAY = 60高并发请求时最大延迟时间AWS_ACCESS_KEY_ID用于访问亚马逊网络服务。默认值：无AWS_ACCESS_KEY_ID它是用于

2021-07-11 09:37:19 101

原创项目实训报告-5 深入了解Pipeline

了解pipeline.pypipeline类参数解释：class SomethingPipeline(object): def __init__(self): # 可选实现，做参数初始化等 # 写入你的业务逻辑 def process_item(self, item, spider): # item (Item 对象) – 爬取数据的item # spider (Spider 对象) – 爬取该item的sp

2021-07-10 23:22:42 164

原创项目实训报告-4 深入了解item

了解Items.py它的作用主要是用来处理获取的的数据，做数据清洗等操作item对象主要是用来存储爬去数据，并对数据进行处理等等。类似于Python的字典，可以使用dict API进行获取参数。API:product.keys() 用于获取所有键值product.items()获取所有键值修改Items.py于是根据数据库建立共完成以下对象创建class User(scrapy.Item):#设置用户所需爬取信息 user_name = scrapy.Fiel.

2021-07-10 22:16:02 102

原创项目实训报告-3 了解Scrapy

经过决定运用Python Scrapy库进行数据爬取，于是开展了针对Scrapy的学习1.整体架构官方解析：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。架构理解：Scrapy Engine：即Scrapy引擎，负责综合控制各个事件，并调度各个部件；Scheduler：即调度器，从引擎接收信号后将数据入列，并可再次返回给引擎，用于决定操作的调度顺序；Downloader：即下载器，抓取.

2021-07-02 22:46:45 606

原创项目实训报告-2 爬取数据确定

本次项目实训分取到的工作是从YouTube上爬取指定用户数据作为人物画像参考。分析后决定共爬取以下类别的数据（以用户にじさんじ为例）：1.用户昵称用以对用户进行识别。2.用户头像用以对用户兴趣进行辅助判断。3.用户简介用以对用户进行进一步了解。5.用户推荐频道用以对用户的喜爱频道进行分析。6.用户粉丝量用以了解用户的影响力。7.用户发布视频及其播放量等信息...

2021-07-02 22:27:13 380

原创项目实训报告-1 初步分析

1.项目名称智能人物画像综合分析系统2.需求概述根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。系统通过用户自行上传或埋点上报收集记录了用户大量信息，为便于各业务应用，将这些信息进行沉淀、加工和抽象，形成一个以用户标志为主key的标签树。并且结合算法模型，综合分析用户行为画像，构建立体化的人物分析系统。3.模块设计3.1智能数据融合模块运用Python爬虫从国内外各大社交网站，如Facebook、Twitter、微博等平台获取较大量的数据信

2021-07-01 20:32:21 288

qq_44740561的博客