2021年01月_晃晃我的半瓶水

原创 task05

打开教程 -> 懂了 -> 会了 -> 关掉教程 -> 我是菜鸡!!!

2021-01-17 20:05:21 77

文章目录开源数据采集开源数据网络爬虫采集理论基础网络爬虫技术HTMLHTML标准简介：HTML文档预处理正则表达式开源数据采集开源数据的采集与抽取为利用网络爬虫技术从开源网站上获取实体,海量的网络开源主页,通过解析HTML网页,利用正则表达式从主题网页上提取对应开源数据的主要内容开源数据网络爬虫采集理论基础网络爬虫技术网络爬虫(Web Crawler),也叫做网页蜘蛛或网络信息收集器,是一种能够对网页进行自动访问的软件程序或自动化脚本,它能够跟随某个链接访问整个Web信息空间,是组成搜索引擎的重要

2021-01-15 19:19:05 371

原创 2021-01-13

任务1思路使用read_table导入数据筛选出来日志结果因为奇偶行存储不同的信息,因此需要进行抽取出来进行使用通过正则表达式进行模式匹配,提取目标信息之后通过列合并将偶数行数据整理成表格抽取出奇数行日志信息, 匹配平均训练结果.将偶数表得到的测试模型及数据结果类型与奇数表得到的测试模型及测试的具体结果通过以模型列为主键的形式进行合并.最后通过长短表转换功能实现长短表的转换....

2021-01-13 22:53:31 92

原创 task03

Neo4j的高性能查询Neo4j作为一个原生的图数据库引擎，它存储了原生的图数据，可以通过使用图结构的自然伸展特性来设计免索引邻近节点遍历的查询算法，即图的遍历算法设计。图的遍历是图数据结构所具有的独特算法，即从一个节点开始，根据其连接的关系，可以快速和方便地找出它的邻近节点。这种查找数据的方法并不受数据量的大小所影响，因为邻近查询查找的始终是有限的局部数据，而不会对整个数据库进行搜索。Neo4j具有非常高效的查询性能，相比于RDBMS，查询速度可以提高数倍乃至数十倍.而且查询速度不会因数据量的增长而下降

2021-01-13 22:25:03 103

原创 Neo4j知识图谱 task02

存在问题1:jupyter notebook环境依赖与py2neo依赖冲突py2neo依赖于 prompt-toolkit==2.0.10jupyter notebook 依赖于prompt-toolkit==1.0.15两个模块互相死掐, 左右横跳.解决方法:放弃使用jupyter notebook开发,直接使用命令行进行知识图谱的构建,存在问题2:build_graph.py函数参数错误.解决方法:因为在环境下无法进入制定路径运行py文件, 所以需要修改文件中路径的具体参数, 另外,

2021-01-12 22:39:51 136

原创 Neo4j task01 学习笔记

微软和谷歌拥有全世界最大的通用知识图谱；Facebook拥有全世界最大的社交知识图谱；阿里巴巴和亚马逊分别构建了商品知识图谱。知识图谱：定义：本质上时一个语义网络的知识库。实际应用上可以简单理解为多关系图。价值：学科概念上有浅到深有人工智能 -> 知识工程 -> 知识表示 -> 知识图谱。图的定义：图的构成为节点和边，多种类型的节点和多种类型的边可构成多关系。节点（实体）：现实世界中的事物，如人、地名、概念、药物、公司等边（关系）：表达不同实体之间的某种联系，如人-

2021-01-11 13:50:08 698 1

原创 pandas组队学习 task10-时间序列

pandas组队学习 task-10import pandas as pdimport numpy as nppath = r'C:\Users\yongx\Desktop\data'时序中的基本对象时间戳(Data times):表示时刻的特殊字符串,如’2020-9-7 08:00:00’.pandas中称之为Timestamp.由时间戳元素构成的序列可以组成DatetimeIndex,当将其放入Series中,Series的类型将变为datetime64[ns],同时当涉及时区时为da

2021-01-10 16:09:33 484

原创 pandas学习 task09

import pandas as pdimport numpy as npcat对象cat对象的属性pandas提供了category类型以便于用户处理分类类型的变量,将一个序列转换成分类变量可以使用astype方法.分类类型的Series中定义了cat对象,该对象类似于str定义了一些属性和方法来进行分类类别的操作.对于一个具体的分类,有两个组成部分,其一为类别的本身,它以Index类型存储,其二为是否有序,它们都可以通过cat的属性被访问.除此之外,每一个序列的类别都会被赋予唯一的整数编号,它

2021-01-07 21:44:17 245 1

qq_41834327的博客

原创 task05

原创数据采集

原创 2021-01-13

原创 task03

原创 Neo4j知识图谱 task02

原创 Neo4j task01 学习笔记

原创 pandas组队学习 task10-时间序列

原创 pandas学习 task09

原创 pandas task-08

原创 pandas组队学习-task07

原创 Pandas 组队学习 task-mid

空空如也

空空如也