自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李子的博客

数据采集研究

  • 博客(7)
  • 收藏
  • 关注

原创 八爪鱼采集数据

在采集网址栏内输入网址,可以有手动输入、从文件导入、从任务导入、批量生成等方法输入采集网址。例如手动输入京东网址:https://www.jd.com/,会有向导按照采集流程,引导自动进行网站上数据的采集。,出现【我想要新模板】,单击【我想要新模板】,填写【我想要新模板】的表单,填写选项【想要采集的网址】、采集需求等提交,系统就会根据你提交的需求。关键词搜索模板,选择【筛选条件】、【综合排序】,找到采集数据的相应模板,如下图1-7所示。【输入框】中,输入目标网站名称,八爪鱼自动寻找相关的采集模板。

2024-02-24 17:45:31 1563

原创 数据采集流程

数据采集流程,就是数据采集开始时,首先是抽取数据,将数据从网页或业务处理系统中抽取数据,再经过数据清洗进行数据标准化、统一化的处理,以及数据迁移,最后存储数据。清洗数据是在采集数据后进行的一个操作,通过数据清洗,使得数据格式达到统一标准,即对数据的脏数据进行纠正、修改、去重等处理,目的是为了减少数据分析中存在的诸多问题,提高数据分析的准确性和效率。也就是说获取的数据在经过数据清洗处理后,将数据存储起来,以便对数据进行进一步的分析、网络数据采集过程,一般都需要经过采集、清洗、存储三个步骤,如图1-5所示。

2024-02-24 17:44:13 1272

原创 数据采集工具

日志易是一款专业的日志分析工具,该平台提供功能强大、简单易用的搜索方式,包括范围查询、字段过滤、正则表达式、NOT/AND/OR布尔值、模糊匹配等方式,并能对查询字段高亮显示、定位日志的上下文,TB级海量数据可快速返回搜索结果。按照数据采集工具平台的不同,分为三种采集工具,分别是第三方采集平台工具、平台编程开发、采集工具定制等三种,本教材将在后续的项目中使用这三种工具实现网络数据采集、系统日志数据采集、操作系统日志数据采集、数据库数据采集等。,实时处理,数据传送,大部分人用C语言实现。许多网站中抓取数据。

2024-02-24 17:41:48 1103

原创 数据采集的分类

数据采集的分类

2024-02-24 17:40:47 1137

原创 数据源和数据类型

各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快,使得传统的数据采集技术无法满足大数据采集的要求,由此我们通过分析数据源,来了解大数据的类型。没有固定结构的数据,信息无法用数字或统一的结构表示,如文本文档、 图片、 视频、声音、各类报表等。由数据源产生的数据类型有:行业数据、业务数据、内容数据、线上行为数据、线下行为数据等五种,如图1-2所示。传统数据数据源为业务数据和行业数据,大数据时代新数据源为业务数据、内容数据、线上行为数据、线下行为数据。

2024-02-24 17:36:15 448

原创 数据的应用价值

大数据采集

2024-02-24 17:33:43 370

原创 大数据采集的定义和特点

大数据采集

2024-02-24 17:31:02 1105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除