自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 task05

打开教程 -> 懂了 -> 会了 -> 关掉教程 -> 我是菜鸡!!!

2021-01-17 20:05:21 77

原创 数据采集

文章目录开源数据采集开源数据网络爬虫采集理论基础网络爬虫技术HTMLHTML标准简介:HTML文档预处理正则表达式开源数据采集开源数据的采集与抽取为利用网络爬虫技术从开源网站上获取实体,海量的网络开源主页,通过解析HTML网页,利用正则表达式从主题网页上提取对应开源数据的主要内容开源数据网络爬虫采集理论基础网络爬虫技术网络爬虫(Web Crawler),也叫做网页蜘蛛或网络信息收集器,是一种能够对网页进行自动访问的软件程序或自动化脚本,它能够跟随某个链接访问整个Web信息空间,是组成搜索引擎的重要

2021-01-15 19:19:05 369

原创 2021-01-13

任务1思路使用read_table导入数据筛选出来日志结果因为奇偶行存储不同的信息,因此需要进行抽取出来进行使用通过正则表达式进行模式匹配,提取目标信息之后通过列合并将偶数行数据整理成表格抽取出奇数行日志信息, 匹配平均训练结果.将偶数表得到的测试模型及数据结果类型与奇数表得到的测试模型及测试的具体结果通过以模型列为主键的形式进行合并.最后通过长短表转换功能实现长短表的转换....

2021-01-13 22:53:31 92

原创 task03

Neo4j的高性能查询Neo4j作为一个原生的图数据库引擎,它存储了原生的图数据,可以通过使用图结构的自然伸展特性来设计免索引邻近节点遍历的查询算法,即图的遍历算法设计。图的遍历是图数据结构所具有的独特算法,即从一个节点开始,根据其连接的关系,可以快速和方便地找出它的邻近节点。这种查找数据的方法并不受数据量的大小所影响,因为邻近查询查找的始终是有限的局部数据,而不会对整个数据库进行搜索。Neo4j具有非常高效的查询性能,相比于RDBMS,查询速度可以提高数倍乃至数十倍.而且查询速度不会因数据量的增长而下降

2021-01-13 22:25:03 102

原创 Neo4j知识图谱 task02

存在问题1:jupyter notebook环境依赖与py2neo依赖冲突py2neo依赖于 prompt-toolkit==2.0.10jupyter notebook 依赖于prompt-toolkit==1.0.15两个模块互相死掐, 左右横跳.解决方法:放弃使用jupyter notebook开发,直接使用命令行进行知识图谱的构建,存在问题2:build_graph.py函数参数错误.解决方法:因为在环境下无法进入制定路径运行py文件, 所以需要修改文件中路径的具体参数, 另外,

2021-01-12 22:39:51 135

原创 Neo4j task01 学习笔记

微软和谷歌拥有全世界最大的通用知识图谱;Facebook拥有全世界最大的社交 知识图谱;阿里巴巴和亚马逊分别构建了商品知识图谱。知识图谱 :定义:本质上时一个语义网络的知识库。实际应用上可以简单理解为多关系图。价值:学科概念上有浅到深有 人工智能 -> 知识工程 -> 知识表示 -> 知识图谱。图的定义: 图的构成为节点和边, 多种类型的节点和多种类型的边可构成多关系。节点(实体):现实世界中的事物,如人、地名、概念、药物、公司等边(关系):表达不同实体之间的某种联系,如人-

2021-01-11 13:50:08 696 1

原创 pandas组队学习 task10-时间序列

pandas组队学习 task-10import pandas as pdimport numpy as nppath = r'C:\Users\yongx\Desktop\data'时序中的基本对象时间戳(Data times):表示时刻的特殊字符串,如’2020-9-7 08:00:00’.pandas中称之为Timestamp.由时间戳元素构成的序列可以组成DatetimeIndex,当将其放入Series中,Series的类型将变为datetime64[ns],同时当涉及时区时为da

2021-01-10 16:09:33 484

原创 pandas学习 task09

import pandas as pdimport numpy as npcat对象cat对象的属性pandas提供了category类型以便于用户处理分类类型的变量,将一个序列转换成分类变量可以使用astype方法.分类类型的Series中定义了cat对象,该对象类似于str定义了一些属性和方法来进行分类类别的操作.对于一个具体的分类,有两个组成部分,其一为类别的本身,它以Index类型存储,其二为是否有序,它们都可以通过cat的属性被访问.除此之外,每一个序列的类别都会被赋予唯一的整数编号,它

2021-01-07 21:44:17 244 1

原创 pandas task-08

pandas task-08 组队学习import numpy as npimport pandas as pdstr对象str对象的设计意图str对象为定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法, pandas沿用了Python的标准库中str模块中的部分函数以保证使用上的便利var = 'abcd'print(str.upper(var))print('-'*50)s = pd.Series(['abcd','efg','hi'])pr

2021-01-05 23:03:20 184

原创 pandas组队学习-task07

import numpy as npimport pandas as pdpath = r'C:\Users\yongx\Desktop\data'缺失值的统计和删除缺失数据的统计通过使用isna和isnull来查看每个单元格是否有缺失,同时结合mean函数求得每列缺失值的比例.针对某列或某行统计缺失值时使用Series上的isna或notna而进行布尔索引同时对若干个列检索全部缺失或存在缺失的行时通过使用isna,notna和all,any函数的组合实现对应功能df = pd.re

2021-01-03 22:26:37 232 1

原创 Pandas 组队学习 task-mid

import pandas as pdimport numpy as nppath = r'C:\Users\yongx\Desktop\mid'data1 = pd.read_csv(path + '\\company.csv')data2 = pd.read_csv(path + '\\company_data.csv')df1 = data1.copy()df2 = data2.copy()df2['日期'] = pd.to_datetime(df2['日期'],errors =

2021-01-01 22:09:31 190 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除