@从心-CSDN博客

原创知识图谱之Cypher语言的使用

一、什么是CypherCypher 是一种声明式图查询语言，它允许对图进行表达性和高效的查询、更新和管理。它旨在适用于开发人员和运营专业人员。Cypher 设计简单但功能强大；可以轻松表达高度复杂的数据库查询，使您能够专注于您的领域，而不是迷失在数据库访问中。Cypher 借鉴了 SQL 的结构——查询是使用各种子句构建的。和SQL一样不区分大小写。二、Cypher 的使用。

2024-11-14 11:36:27 624

原创大数据学习之数据仓库Hive

数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。传统的数据仓库是数据存储产品也是数据处理分析产品，能同事支持数据的存储和处理分析传统数据仓库所面临的挑战无法满足快速增长的海量数据存储需求无法有效处理不同类型的数据计算和处理能力不足构建在Hadoop平台之上的HiveHive本身不支持数据存储和处理，为用户提供了一种编程语言...

2021-12-27 15:54:37 1672

MapReduce概述MapReduce是一种分布式并行编程框架，借助一个集群通过多台机器同时并行处理大规模数据集MapReduce的策略MapReduce采用分而治之的策略。把庞大的数据集，切分成非常多的独立的小分片，然后为每个分片单独地启动一个map任务，最终通过多个map任务，并行地在多个机器上处理MapReduce的理念计算向数据靠拢而不是数据向计算靠拢要完成一次数据分析时，选择一个计算节点，把运行数据分析的程序放到计算节点上运行然后把它所涉及的数据，全部从各个不同的节点上面拉

2021-12-24 15:47:56 2162

原创大数据学习之NoSQL数据库

NoSQL的概述NoSQL的特点灵活的扩展性灵活的数据模型与云计算密切相关传统关系数据库性能缺陷无法满足海量数据的管理需求无法满足高并发的需求无法满足高可扩展性和高可用性的需求MySQL集群方式的缺陷复杂性，整个集群部署管理配置都非常复杂延迟性，当主库压力较大时，就会带来较大的延迟扩容问题，整个集群压力过大时，需要增加新机器对整个数据集进行重新分区，非常复杂NoSQL数据库与关系数据库的比较数据库原理方面，关系数据库具有完备的关系代数理论作为基础；NoSQL数据库缺

2021-12-24 10:20:50 2049

原创大数据学习之分布式数据库HBase

HBase简介HBase就是BigTable的开源实现，是一个稀疏的多维度的排序的映射表，可以用来存储非结构化和半结构化的松散数据，通过水平扩展的方式，允许几千台服务器去存储海量文件HBase的特点高可靠高性能面向列可伸缩HBase与传统的关系型数据库的联系与区别数据类型方面，传统的关系数据库用的是经典的关系数据模型，有非常多的数据类型和存储方式；而HBase的数据模型就很简单，把存储的数据存储为未经解释的字符串，靠开发人员读取数据来解释数据类型。数据操作方面，在关系数据库当中定义

2021-12-23 16:22:28 2243

原创大数据学习之分布式文件系统HDFS

HDFS的实现目标兼容廉价的硬件设备实现流数据的读写支持大数据集支持简单的文件模型强大的跨平台兼容性HDFS的局限性不适合低延迟数据访问，不支持实时性的访问数据无法高效存储大量的小文件，小文件越多，搜索耗时越大不支持多用户写入，以及任意修改文件，只允许追加不允许修改...

2021-12-22 17:58:50 729

原创大数据学习之Hadoop

大数据的关键技术：批处理技术、流计算、图计算、查询分析计算大数据处理架构Hadoop1. Hadoop简介apache软件基金会的开源软件，使用Java开发，但是Hadoop支持多种编程语言，有两大核心HDFS、MapReduceHadoop的特点：高可靠性。多太机器构成集群，冗余副本机制，部分机器发生故障，也不影响剩余机器的服务高效性。用多台机器来做计算，效率自然就高了高可拓展性。机器（节点）的数量没有限制低成本。可使用多个普通的pc机器构建集群高性能计算。Hadoop的应用现状

2021-12-22 14:53:25 526

原创 Scrapy-网易新闻模块爬取

需求首先明确需求：爬取网易新闻新闻的标题和新闻详情页的内容注意项：先从首页获取对应的详情页的url每一个模块的新闻都是动态加载出来的，可配合selenium实现动态加载详情页面的爬取实现过程创建工程：scrapy startproject wangyiPro转入工程：cd wangyiPro创建爬虫文件：scrapy genspider wangyi www.xxx.com实现过程1.1 观察首页结构，定位模块观察网易新闻的首页，配套开发者工具，定位到需要爬取的模块，编写pars

2021-12-09 14:59:42 867

原创使用xpath分页爬取站长素材中的图标

最近在跟着网上的视频复习爬虫，记录一下xpath的使用xpath解析原理： 1、实例化一个etree对象，且需要将解析的页面源码数据加载到该对象中 2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容获取环境安装： pip install lxml如何实例化一个etree对象：from lxml import etree 1、将本地的html文件中的源码数据加载到etree对象中： etree.parse(filePath) 2、可以将网络上获取到的源码数

2021-10-19 10:24:41 527

原创 BeautifulSoup爬取小说中所有的标题和内容

BeautifulSoup使用语法如何使用实例化BeautifulSoup对象： from bs4 import BeautifulSoup 对象的实例化： 1、将本地的html文档中的数据加载到该对象中 f = open('/test.html','r',encoding='utf-8') soup = BeautifulSoup(f,'lxml') 2、互联网上获取的页面源码加载到该对象中 page_text = response.text soup = Beaut

2021-10-17 10:26:31 844

原创使用正则解析，分页爬取图片

最近在跟着网上的视频复习爬虫，记录一下使用正则，爬取糗图百科中热图模块下的所有图片# -*-coding:utf-8-*-# 爬取糗图百科中热图模块下的所有图片import requestsimport reimport osif __name__=='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)

2021-10-16 09:55:49 192

原创简单的requests

一、简易网页采集器爬取搜狗搜索中对应词条的搜索结果页面# -*-coding:utf-8-*-import requests# UA伪装：User-Agent# 门户网站的服务器会检测对应请求的载体身份标识#if __name__=='__main__': # 将对应的User-agent封装到一个字典中 header={ 'User-Agent':'Mozilla / 5.0(X11;Linuxx86_64) AppleWebKit / 537.36(KH

2021-10-16 09:40:03 156

原创大数据可视化技术-Tableau01

重庆工程学院实验（实训）报告实验（实训）项目名称奥运会数据集可视化分析学时 2 实验（实训）地点 414实验（实训）日期 2021.5.18 成绩一、实验（实训）目的与要求；1.理解数据可视化的绘图方法2.掌握Tableau可视化步骤、原理和效果3.掌握Tableau仪表板的使用二、实验（实训）原理与内容；加载120年来的奥运会的csv数据，将参赛国家、参赛项目、参赛选手等情况做一份数据可视化。三、实验（实训）仪器设备、器材、工具、软件等；Tableau 2019.4四、

2021-09-22 16:33:58 669 1

原创数据库代码总结

代码# 数据库emp如果存在就删除drop database if exists emp;# 创建数据库empCreate database emp# 默认中国字符集编码# 网页编码和数据库编码要对应起来，不然可能会乱码default character set=gb2312default collate=gb2312_chinese_ci;use emp;# 创建数据表Create table dept(deptID char(9) primary key , /* 列级完整性约

2021-09-20 16:37:53 3156

原创数据库概念总结

概念设计实体间的联系一对一联系 1：1一对多联系 1：n多对多联系 n:m概念模型的表示方法 — E-R模型E-R模型提供了表示实体、属性和联系的方法，是用来描述现实世界的概念模型。用“矩形框”表示实体；用“椭圆框”表示实体属性；用“菱形框”表示联系；用“无向边”进行连接。创建局部E-R图的基本步骤：进行需求分析，确定实体个数分析每个实体所具有的属性确定每个实体的主键（关键字）确定实体间的联系主要数据模型有层次模型、网状模型、关系模型关系模型数据结构关系模型的数据结

2021-09-20 16:10:00 216

原创深度学习与神经网络

是以神经网络为核心的深度学习是机器学习的一个领域分支。深度学习看起来就像是一个黑箱机制，输入各种非结构化的数据之后输出来的预测结果。例如，输入一段语音，输出“Hello World”这样的文本；输入一张猫的图像，输出为“猫”这样的标签；输入一副棋局，输出下一步走棋方式；输入中文的“你好”，输出“Hi”这样的英文等。很难对输入与输出之间的模型转换过程给出一个合理的解释。在实际中，调用TensorFlow这样的深度学习框架，快速搭建起深度学习项目。感知机感知机，就是一个指在建立一个线性超平面对线性可分的数

2021-07-09 11:50:13 1941

原创 cifar100.load_data()报错URL fetch failure on https://www.cs.toronto.edu/~kriz/cifar-10-python.tar：None

今天使用cifar100.load_data()加载cifar100数据集时报错“Exception: URL fetch failure on https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz: None ”刚开始我以为是网络不好，访问超时所以才报错，因为我昨天才用load_data()加载过数据，当时是可以加载的，但是没有等它下载完就关了，所以我换了一个网络试了下，还是不行，怎么回事？之后想到手动下载，再放在.keras/dataset

2021-07-02 11:43:30 1507

原创大数据可视化技术-echarts03（D3获取数据）

使用D3绘制图形，主要分为以下几个步骤完成：1、引入Echarts；2、为ECharts准备一个具备大小的Dom；3、加载数据和整理数据；4、设定图表的配置项；5、使用指定的配置项和数据显示图表；6、添加和修改图表样式。...

2021-06-29 09:10:49 1692

原创基于统计的语言模型-n元语法模型

n-gram模型概述1、n-gram模型，也称为N元语法模型，是一种基于统计语言模型的算法2、n元语法模型的算法思想：将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度时N的字节片段序列，每个字节片段称为gram。对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。3、该模型基于马尔科夫假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现

2021-06-28 22:48:46 2718 1

原创机器学习-回归

回归（regression）是一种统计学的数据拟合方法，逐步的逼近最佳拟合曲线，这个过程中数据看起来似乎渐渐的“回到”这条曲线上。回归分析不仅用于产生拟合曲线，还可以分析数据有“多符合”这条拟合曲线，也即是拟合的置信度。所以可以简单的认为拟合是目的，回归是实现数据拟合的一种分析方法，除了回归分析以外，还有曲线平滑等其他拟合方法。线性回归假设函数：y=ax+by=ax+by=ax+b(一元线性回归)y=c1x1+c2x2+⋯+cnxn+by=c_1x_1+c_2x_2+\cdots+c_nx_n +

2021-06-28 08:31:11 1887

原创大数据可视化技术-echarts02

基础柱状图的绘制结合如下期末语文成绩，绘制柱状图：配置项的内容var option1 = { //标题 title:{ text:'语文期末成绩', left:250 }, // 提示框 tooltip:{}, // 图例 legend:{ data:['语文'] }, // x轴 xAxis:{ data:xdata1 }, // y轴 yAxis:{}, // serie

2021-06-27 21:20:56 522

原创大数据可视化技术-echarts01

ECharts可视化步骤（1）导入echarts.min.js包需在head标签内引入js文件，我们需要通过script标签中的scr属性来给外部脚本文件规定一个路径<script src="./echarts.min.js"></script>（2）为ECharts准备一个具备大小（宽高）的容器我们需要准备一个呈现图表的盒子，通常我们是在div标签内规定一个区域来呈现图表。<div id="main" style="width: 600px;height:40

2021-06-27 16:41:05 1011

原创机器学习-假设函数、损失函数、优化函数

假设函数假设函数就是假设某一个函数可以代表大多数数据的分布。这个函数的参数是未知的，而不同的参数所得到的假设函数是不同的。模型参数与假设函数之间的关系：参数设定的不同，直接导致假设函数的不同。损失函数（loss function）损失函数也称代价函数，是描述假设函数在不同参数值下的损失。损失函数最终作为模型建立的学习准则和优化问题，通常将损失函数用来判断模型预测出来的结果与实际值的差距程度。优化函数优化函数对损失函数进行优化，寻找最优参数。优化损失函数的方式有很多种，常用到的是最小二乘和梯度下

2021-06-26 10:00:45 1806

原创自然语言处理——概述

概述文本分类在文本处理中是很重要的一个模块，它的应用也非常广泛，比如:垃圾过滤，新闻分类，词性标注等等。它和其他的分类没有本质的区别，核心方法为首先提取分类数据的特征，然后选择最优的匹配，从而分类通常来讲，文本分类任务是指在给定的分类体系中，将文本指定分到某个或某几个类别中。被分类的对象有短文本，例如句子、标题、商品评论等等，长文本，如文章等。分类体系一般人应用：垃圾邮件的判定:是否为垃圾邮件根据标题为图文视频打标签:政治、体育、娱乐等根据用户阅读内容建立画像标签:教育、医疗等电商商品评

2021-06-25 09:58:32 1045

原创大数据可视化技术

数据可视化的标准实用性完整性真实性艺术性交互性数据可视化流程数据采集数据预处理：数据质量、数据清洗、数据集成数据可视化映射用户感知数据可视化的作用数据表达：是通过计算机图性技术来更加友好地显示数据信息，以便人们理解和分析数据。数据操作：是以计算机提供界面、接口和协议等条件为基础完成人鱼数据的交互需求，数据操作需要友好便捷的人家交互技术、表转化的接口和通信协议来完成对数据集的操作。数据分析：是通过计算机获得多维、多源、异构和海量数据所隐含信息的核心手段，它是数据存储、数据

2021-06-24 21:23:42 9677

原创机器学习-模型的评估

对于机器学习而言，无论使用何种算法，模型的评估都是很重要的。通过对模型的评估可以知道模型的好坏，预测结果的准确性，有利于确定模型调整的方向。模型评估根据不同的问题有不用的评估标准。这个汇总主要从回归、分类和聚类分别阐述。一、回归1、均方误差（Mean Squared Error）均方误差是指参数估计值与参数真实值之差平方的期望值。MSE可以评价数据的变化程度，MSE的值越小，说明模型精确度越高。from sklearn.metrics import mean_squared_errory_tr

2021-06-24 15:43:30 1290

原创 opencv解决不能使用xfeatures2d

opencv解决不能使用xfeatures2d因为opencv3.4.2以上的版本对xfeatures2d都申请了专利，所以用不来，要卸载原来的opencv后更改opencv的版本为3.4.2.16的。pip uninstall opencvpip install opencv-python == 3.4.2.16pip install opencv-contrib-python == 3.4.2.16但是这样做了之后遇到了一个问题，在Anaconda中虽然可以执行xfeatures2d了，但是程

2021-06-24 09:44:27 4200

qq_45786520的博客