自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 大数据学习之数据仓库Hive

数据仓库概念数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。传统的数据仓库是数据存储产品也是数据处理分析产品,能同事支持数据的存储和处理分析传统数据仓库所面临的挑战无法满足快速增长的海量数据存储需求无法有效处理不同类型的数据计算和处理能力不足构建在Hadoop平台之上的HiveHive本身不支持数据存储和处理,为用户提供了一种编程语言...

2021-12-27 15:54:37 1594

原创 大数据学习之MapReduce

MapReduce概述MapReduce是一种分布式并行编程框架,借助一个集群通过多台机器同时并行处理大规模数据集MapReduce的策略MapReduce采用分而治之的策略。把庞大的数据集,切分成非常多的独立的小分片,然后为每个分片单独地启动一个map任务,最终通过多个map任务,并行地在多个机器上处理MapReduce的理念计算向数据靠拢而不是数据向计算靠拢要完成一次数据分析时,选择一个计算节点,把运行数据分析的程序放到计算节点上运行然后把它所涉及的数据,全部从各个不同的节点上面拉

2021-12-24 15:47:56 2050

原创 大数据学习之NoSQL数据库

NoSQL的概述NoSQL的特点灵活的扩展性灵活的数据模型与云计算密切相关传统关系数据库性能缺陷无法满足海量数据的管理需求无法满足高并发的需求无法满足高可扩展性和高可用性的需求MySQL集群方式的缺陷复杂性,整个集群部署管理配置都非常复杂延迟性,当主库压力较大时,就会带来较大的延迟扩容问题,整个集群压力过大时,需要增加新机器对整个数据集进行重新分区,非常复杂NoSQL数据库与关系数据库的比较数据库原理方面,关系数据库具有完备的关系代数理论作为基础;NoSQL数据库缺

2021-12-24 10:20:50 1952

原创 大数据学习之分布式数据库HBase

HBase简介HBase就是BigTable的开源实现,是一个稀疏的多维度的排序的映射表,可以用来存储非结构化和半结构化的松散数据,通过水平扩展的方式,允许几千台服务器去存储海量文件HBase的特点高可靠高性能面向列可伸缩HBase与传统的关系型数据库的联系与区别数据类型方面,传统的关系数据库用的是经典的关系数据模型,有非常多的数据类型和存储方式;而HBase的数据模型就很简单,把存储的数据存储为未经解释的字符串,靠开发人员读取数据来解释数据类型。数据操作方面,在关系数据库当中定义

2021-12-23 16:22:28 2078

原创 大数据学习之分布式文件系统HDFS

HDFS的实现目标兼容廉价的硬件设备实现流数据的读写支持大数据集支持简单的文件模型强大的跨平台兼容性HDFS的局限性不适合低延迟数据访问,不支持实时性的访问数据无法高效存储大量的小文件,小文件越多,搜索耗时越大不支持多用户写入,以及任意修改文件,只允许追加不允许修改...

2021-12-22 17:58:50 667

原创 大数据学习之Hadoop

大数据的关键技术:批处理技术、流计算、图计算、查询分析计算大数据处理架构Hadoop1. Hadoop简介apache软件基金会的开源软件,使用Java开发,但是Hadoop支持多种编程语言,有两大核心HDFS、MapReduceHadoop的特点:高可靠性。多太机器构成集群,冗余副本机制,部分机器发生故障,也不影响剩余机器的服务高效性。用多台机器来做计算,效率自然就高了高可拓展性。机器(节点)的数量没有限制低成本。可使用多个普通的pc机器构建集群高性能计算。Hadoop的应用现状

2021-12-22 14:53:25 461

原创 Scrapy-网易新闻模块爬取

需求首先明确需求:爬取网易新闻新闻的标题和新闻详情页的内容注意项:先从首页获取对应的详情页的url每一个模块的新闻都是动态加载出来的,可配合selenium实现动态加载详情页面的爬取实现过程创建工程:scrapy startproject wangyiPro转入工程:cd wangyiPro创建爬虫文件:scrapy genspider wangyi www.xxx.com实现过程1.1 观察首页结构,定位模块观察网易新闻的首页,配套开发者工具,定位到需要爬取的模块,编写pars

2021-12-09 14:59:42 806

原创 使用xpath分页爬取站长素材中的图标

最近在跟着网上的视频复习爬虫,记录一下xpath的使用xpath解析原理: 1、实例化一个etree对象,且需要将解析的页面源码数据加载到该对象中 2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容获取环境安装: pip install lxml如何实例化一个etree对象:from lxml import etree 1、将本地的html文件中的源码数据加载到etree对象中: etree.parse(filePath) 2、可以将网络上获取到的源码数

2021-10-19 10:24:41 429

原创 BeautifulSoup爬取小说中所有的标题和内容

BeautifulSoup使用语法如何使用实例化BeautifulSoup对象: from bs4 import BeautifulSoup 对象的实例化: 1、将本地的html文档中的数据加载到该对象中 f = open('/test.html','r',encoding='utf-8') soup = BeautifulSoup(f,'lxml') 2、互联网上获取的页面源码加载到该对象中 page_text = response.text soup = Beaut

2021-10-17 10:26:31 728

原创 使用正则解析,分页爬取图片

最近在跟着网上的视频复习爬虫,记录一下使用正则,爬取糗图百科中热图模块下的所有图片# -*-coding:utf-8-*-# 爬取糗图百科中热图模块下的所有图片import requestsimport reimport osif __name__=='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)

2021-10-16 09:55:49 133

原创 简单的requests

一、简易网页采集器爬取搜狗搜索中对应词条的搜索结果页面# -*-coding:utf-8-*-import requests# UA伪装:User-Agent# 门户网站的服务器会检测对应请求的载体身份标识#if __name__=='__main__': # 将对应的User-agent封装到一个字典中 header={ 'User-Agent':'Mozilla / 5.0(X11;Linuxx86_64) AppleWebKit / 537.36(KH

2021-10-16 09:40:03 97

原创 大数据可视化技术-Tableau01

重庆工程学院实验(实训)报告实验(实训)项目名称 奥运会数据集可视化分析学 时 2 实验(实训)地点 414实验(实训)日期 2021.5.18 成 绩 一、实验(实训)目的与要求;1.理解数据可视化的绘图方法2.掌握Tableau可视化步骤、原理和效果3.掌握Tableau仪表板的使用二、实验(实训)原理与内容;加载120年来的奥运会的csv数据,将参赛国家、参赛项目、参赛选手等情况做一份数据可视化。三、实验(实训)仪器设备、器材、工具、软件等;Tableau 2019.4四、

2021-09-22 16:33:58 573 1

原创 数据库 代码总结

代码# 数据库emp如果存在就删除drop database if exists emp;# 创建数据库empCreate database emp# 默认中国字符集编码# 网页编码和数据库编码要对应起来,不然可能会乱码default character set=gb2312default collate=gb2312_chinese_ci;use emp;# 创建数据表Create table dept(deptID char(9) primary key , /* 列级完整性约

2021-09-20 16:37:53 2977

原创 数据库 概念总结

概念设计实体间的联系一对一联系 1:1一对多联系 1:n多对多联系 n:m概念模型的表示方法 — E-R模型E-R模型提供了表示实体、属性和联系的方法,是用来描述现实世界的概念模型。用“矩形框”表示实体;用“椭圆框”表示实体属性;用“菱形框”表示联系;用“无向边”进行连接。创建局部E-R图的基本步骤:进行需求分析,确定实体个数分析每个实体所具有的属性确定每个实体的主键(关键字)确定实体间的联系主要数据模型有层次模型、网状模型、关系模型关系模型数据结构关系模型的数据结

2021-09-20 16:10:00 145

原创 深度学习与神经网络

是以神经网络为核心的深度学习是机器学习的一个领域分支。深度学习看起来就像是一个黑箱机制,输入各种非结构化的数据之后输出来的预测结果。例如,输入一段语音,输出“Hello World”这样的文本;输入一张猫的图像,输出为“猫”这样的标签;输入一副棋局,输出下一步走棋方式;输入中文的“你好”,输出“Hi”这样的英文等。很难对输入与输出之间的模型转换过程给出一个合理的解释。在实际中,调用TensorFlow这样的深度学习框架,快速搭建起深度学习项目。感知机感知机,就是一个指在建立一个线性超平面对线性可分的数

2021-07-09 11:50:13 1878

原创 cifar100.load_data()报错URL fetch failure on https://www.cs.toronto.edu/~kriz/cifar-10-python.tar:None

今天使用cifar100.load_data()加载cifar100数据集时报错“Exception: URL fetch failure on https://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz: None ”刚开始我以为是网络不好,访问超时所以才报错,因为我昨天才用load_data()加载过数据,当时是可以加载的,但是没有等它下载完就关了,所以我换了一个网络试了下,还是不行,怎么回事?之后想到手动下载,再放在.keras/dataset

2021-07-02 11:43:30 1396

原创 大数据可视化技术-echarts03(D3获取数据)

使用D3绘制图形,主要分为以下几个步骤完成:1、引入Echarts;2、为ECharts准备一个具备大小的Dom;3、加载数据和整理数据;4、设定图表的配置项;5、使用指定的配置项和数据显示图表;6、添加和修改图表样式。...

2021-06-29 09:10:49 1484

原创 基于统计的语言模型-n元语法模型

n-gram模型概述1、n-gram模型,也称为N元语法模型,是一种基于统计语言模型的算法2、n元语法模型的算法思想:将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度时N的字节片段序列,每个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。3、该模型基于马尔科夫假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现

2021-06-28 22:48:46 2298 1

原创 机器学习-回归

回归(regression)是一种统计学的数据拟合方法,逐步的逼近最佳拟合曲线,这个过程中数据看起来似乎渐渐的“回到”这条曲线上。回归分析不仅用于产生拟合曲线,还可以分析数据有“多符合”这条拟合曲线,也即是拟合的置信度。 所以可以简单的认为拟合是目的,回归是实现数据拟合的一种分析方法,除了回归分析以外,还有曲线平滑等其他拟合方法。线性回归假设函数:y=ax+by=ax+by=ax+b(一元线性回归)y=c1x1+c2x2+⋯+cnxn+by=c_1x_1+c_2x_2+\cdots+c_nx_n +

2021-06-28 08:31:11 1635

原创 大数据可视化技术-echarts02

基础柱状图的绘制结合如下期末语文成绩,绘制柱状图:配置项的内容var option1 = { //标题 title:{ text:'语文期末成绩', left:250 }, // 提示框 tooltip:{}, // 图例 legend:{ data:['语文'] }, // x轴 xAxis:{ data:xdata1 }, // y轴 yAxis:{}, // serie

2021-06-27 21:20:56 401

原创 大数据可视化技术-echarts01

ECharts可视化步骤(1) 导入echarts.min.js包需在head标签内引入js文件,我们需要通过script标签中的scr属性来给外部脚本文件规定一个路径<script src="./echarts.min.js"></script>(2)为ECharts准备一个具备大小(宽高)的容器我们需要准备一个呈现图表的盒子,通常我们是在div标签内规定一个区域来呈现图表。<div id="main" style="width: 600px;height:40

2021-06-27 16:41:05 940

原创 机器学习-假设函数、损失函数、优化函数

假设函数假设函数就是假设某一个函数可以代表大多数数据的分布。这个函数的参数是未知的,而不同的参数所得到的假设函数是不同的。模型参数与假设函数之间的关系:参数设定的不同,直接导致假设函数的不同。损失函数(loss function)损失函数也称代价函数,是描述假设函数在不同参数值下的损失。损失函数最终作为模型建立的学习准则和优化问题,通常将损失函数用来判断模型预测出来的结果与实际值的差距程度。优化函数优化函数对损失函数进行优化,寻找最优参数。优化损失函数的方式有很多种,常用到的是最小二乘和梯度下

2021-06-26 10:00:45 1528

原创 自然语言处理——概述

概述文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类通常来讲,文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。被分类的对象有短文本,例如句子、标题、商品评论等等,长文本,如文章等。分类体系一般人应用:垃圾邮件的判定:是否为垃圾邮件根据标题为图文视频打标签:政治、体育、娱乐等根据用户阅读内容建立画像标签:教育、医疗等电商商品评

2021-06-25 09:58:32 894

原创 大数据可视化技术

数据可视化的标准实用性完整性真实性艺术性交互性数据可视化流程数据采集数据预处理:数据质量、数据清洗、数据集成数据可视化映射用户感知数据可视化的作用数据表达:是通过计算机图性技术来更加友好地显示数据信息,以便人们理解和分析数据。数据操作:是以计算机提供界面、接口和协议等条件为基础完成人鱼数据的交互需求,数据操作需要友好便捷的人家交互技术、表转化的接口和通信协议来完成对数据集的操作。数据分析:是通过计算机获得多维、多源、异构和海量数据所隐含信息的核心手段,它是数据存储、数据

2021-06-24 21:23:42 9249

原创 机器学习-模型的评估

对于机器学习而言,无论使用何种算法,模型的评估都是很重要的。通过对模型的评估可以知道模型的好坏,预测结果的准确性,有利于确定模型调整的方向。模型评估根据不同的问题有不用的评估标准。这个汇总主要从回归、分类和聚类分别阐述。一、回归1、均方误差(Mean Squared Error)均方误差是指参数估计值与参数真实值之差平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明模型精确度越高。from sklearn.metrics import mean_squared_errory_tr

2021-06-24 15:43:30 1179

原创 opencv解决不能使用xfeatures2d

opencv解决不能使用xfeatures2d因为opencv3.4.2以上的版本对xfeatures2d都申请了专利,所以用不来,要卸载原来的opencv后更改opencv的版本为3.4.2.16的。pip uninstall opencvpip install opencv-python == 3.4.2.16pip install opencv-contrib-python == 3.4.2.16但是这样做了之后遇到了一个问题,在Anaconda中虽然可以执行xfeatures2d了,但是程

2021-06-24 09:44:27 4088

原创 机器学习-概述

什么是机器学习:所谓机器学习就是让机器模仿人类的学习行为,学着去获取知识,在已经有的经验基础上进行改善。机器学习可分为三部分:模型:规则、状态、逻辑、KNN、SVM、DNN等性能评估:精确度、熵、准确度、F1值,召回率等参数优化:组合优化、顶点优化、约束优化回归(regression)是一种统计学的数据拟合方法,逐步的逼近最佳拟合曲线,这个过程中数据看起来似乎渐渐的“回到”这条曲线上。回归分析不仅用于产生拟合曲线,还可以分析数据有“多符合”这条拟合曲线,也即是拟合的置信度。 所以可以简单的认为

2021-06-24 09:42:20 291

原创 基于卷积神经网络的手写数字识别

首先看全连接神经网络存在的问题:全连接有Flatten层,把28×28的图像(在横、纵方向都有信息的图像)压平成(None,784)的一维数据,减少了信息全连接神经网络层数少,但参数太大,下一层的神经元都与上一层的神经元有连接基于卷积神经网络的手写数字识别1、加载数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.kera

2021-06-08 11:35:58 765

原创 FashionMNIST的全连接神经网络

1. 加载数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.optimizers import SGD,Adam%matplotlib inline# load数据(x_train,y_train),(x_test,y_

2021-06-08 11:23:05 782

原创 使用K-means对鸢尾花数据进行分类

导入数据import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import silhouette_score from sklearn.metrics import calinski_harabasz_s

2021-06-08 10:51:02 3832

原创 使用MVC实现简单的用户登录

1、数据表结构与内容2、代码实现注意:(1)表单的提交地址为“lgServlet”。这在我们之后的Servlet的配置中需要用到。(2)提交的方式是“post”方式。这决定了调用Servlet的哪个方法。(3)2个文本框控件的name属性为“username”、“password”。这(4)我们还需要2个简单的成功"result_succ.jsp"、登陆失败"result_err.jsp"画面login.jsp<%@ page contentType="text/html;char

2021-05-24 10:01:39 2820 1

原创 使用JDBC实现用户注册

1、在MySQL数据库中先新建一个数据库表结构如下:2、在IDEA中连接数据库在连接数据库之前,先将mysql-connector-java-8.0.19.jar导入但是有时候这种导入方式不成功,会报错(java.lang.ClassNotFoundException: com. mysql.cj.jdbc.Driver),这时直接将jar包放进tomcat的离别文件夹中即可3、创建数据库处理工具类DbPreparedUtil.javapackage com.example.jdbc_re

2021-05-14 20:19:47 4316 4

原创 spark编程

创建RDD# 内部创建list1 = [1,2,3,4,5,6]set1 = set(list1)rdd1 = sc.parallelize(list1)rdd2 = sc.parallelize(set1)print(rdd1.collect())print(rdd2.collect())rdd2.getNumPartitions() # 获取分区# 从文件读取数据创建RDDrdd3 = sc.textFile(r'D:\ws\spark\test.txt')rdd3.co

2021-04-07 21:59:25 457

转载 pandas.DataFrame中iterrows()方法 转载

转载来源:dechuanPandas的基础结构可以分为两种:数据框和序列。数据框(DataFrame)是拥有轴标签的二维链表,换言之数据框是拥有标签的行和列组成的矩阵 - 列标签位列名,行标签为索引。Pandas中的行和列是Pandas序列 - 拥有轴标签的一维链表。iterrows()是在数据框中的行进行迭代的一个生成器,它返回每行的索引及一个包含行本身的对象。所以,当我们在需要遍历行数据的时候,就可以使用 iterrows()方法实现了。示例代码import pandas as pdimp

2021-03-07 16:40:39 3634

原创 小练习

python 删除列表中特定元素前的所有元素,并放回新的列表(1)若特定元素在元素列表中,则删除特定元前的所有元素后返回新的列表(2)若原始列表为空,则也返回一个空列表(3)如果特定元素不在列表中,就返回原始列表def remove_all_before(items: list, border: int) -> Iterable: # your code here for i in items: if i==border: retu

2021-01-27 16:59:46 164 1

原创 爬虫学习01

爬虫学习01爬虫的概念:网络爬虫,就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定规则,自动地抓取互联网信息的程序模拟浏览器,发送请求,获取响应爬虫特点:原则上,只要是客户端能做的事情,爬虫都能够做到爬虫也只能获取客户端所展示出来的数据爬虫的作用:数据采集爬取微博等社交网站评论(后续机器学习舆情分析)爬取招聘等网站的招聘信息(数据分析、挖掘)新浪滚动新闻百度新闻网站软件测试爬虫自动化测试虫师12306抢票:点击查询就是发送请求,获取响应网站上的投票

2021-01-22 11:25:32 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除