- 博客(44)
- 收藏
- 关注
原创 Failed to load class "org.slf4j.impl.StaticLoggerBinder" spark
问题描述: 在使用spark-shell 时,开启的是本地模式,执行加载数据的命令报错scala> val usersDF = spark.read.load("/opt/module/datas/users.parquet")SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J...
2020-04-01 13:39:00 1341
原创 大数据(三)--------完全分布式
集群部署规划: bigdata111 bigdata112 bigdata113 HDFS NameNode SecondaryNameNode DataNode DataNode DataNode YARN ResourceManager NodeManager ...
2019-12-25 17:59:32 442
原创 大数据(二)--------伪分布式
一、单台主机的伪分布式配置 伪分布式的配置规划: bigdata111 HDFS NameNode SecondaryNameNode DataNode YARN ResourceManager NodeManager 首先我们不配置 SSH 免密登陆,直接去配置一台伪分布式...
2019-12-25 16:35:54 998
原创 大数据(一)--------环境搭建
一、安装虚拟机及Linux 虚拟机我装的VMware14,Linux我装的CentOS8,具体安装的过程网上教程很多,我就不再赘述了,装的过程中遇到的问题我都汇总在了另一篇文章中”大数据学习遇到的那些坑“。 能到上图所示的时候就说明虚拟机以及Linux系统已经安装好了。二、让虚拟机能够联网1、虚拟机设置固定IP 将虚拟机设置成固定ip的...
2019-12-24 21:34:42 507
转载 jupyter将默认路径更换为自定义路径
初次使用anaconda中自带的jupyter,打开后默认工作路径为C:\Users\Admin(自己的用户名)需要更换工作路径更换方式如下:打开C:\Users\Admin(自己的用户名)\.jupyter -> jupyter_notebook_config.py找到#c.NotebookApp.notebook_dir = ' '并改为c.NotebookApp....
2019-11-28 15:34:04 1169
原创 Linux相关
1、安装VMware12未出现问题;2、安装CentOS8时刚开始都配置成功了,但是准备开启centos虚拟机的时候一直黑屏; 原因:经过查找,发现其实系统已经启动,只不过没能显示而已; 解决办法:在windows系统上以管理员的身份运行CMD,然后在cmd中输入命令“netsh winsock reset”,然后重启电脑再次打开虚拟机就正常了。3、centos...
2019-10-16 17:14:49 251
原创 数据分析(二)----- 描述性统计分析
一、直方图 直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种。二、数据的计量尺度 数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类:定类尺度:表现为“ 类别 ” ,各类之间无等级大小差别; 定序尺度:描述对象的类别,但具有固有的大小和高低顺序; 定距尺度:数据间有固定的距离; 定比尺度:它还可以作为比较的共同起...
2019-01-23 15:57:35 9174
原创 数据分析(一)----- 基本概念及分析软件安装
一、什么是数据分析 专业的解释:有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学与艺术。 从行业的角度:数据分析是基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。 数据分析立足于三点:一是目的,要有针对性;二是方法,统计基础和数据挖掘;三是结果,要达到最初的目的并有较好的应用。二、...
2019-01-22 16:05:14 2051
原创 爬虫(requests)爬取数据爬到一半时乱码了的解决办法
今天写了一个爬虫采集一些数据,刚开始一切都很好,后来采集到3万条左右的时候出现了乱码,不仅是保存到CSV文件中是乱码,就连打印到控制台窗口也是乱码,这时怎么一回事? 初步将问题定在网页编码可能发生了改动,一开始我请求数据是这样写的:html = requests.get(detailUrl, headers=headers, timeout = 5).text...
2019-01-19 16:24:33 1115
原创 爬虫采集到的数据保存到CSV文件中乱码问题的解决办法
以下的几种错误就是我在解决CSV文件中乱码问题时遇到的: TypeError: write() argument must be str, not bytes; TypeError: a bytes-like object is required, not 'str'; 还有一些是调试的时候出的错误,但是有点忘了,大意就是在用某种方法解决一个...
2019-01-19 15:59:38 7841 3
原创 数据清洗(三)----- 清洗PDF文件中的数据
可移植文档格式(PDF)存储的文件相对较复杂,因为它是以二进制的形式存储的,格式固定,不可修改。使用起来很方便,但是里面的信息相对较难提取,下面将介绍一些方式提取FDF中的信息。1. 最简单的方式----复制 有pdf文件里面的内容可以复制出来再整理,这对于需要从PDF中拿少量信息来说十分便利;但是数据比较多时这样做的效率低下,而且有的PDF根本无法复制,因此这种方...
2019-01-17 17:47:43 4497 4
原创 数据清洗(二)----- 数据转换
一、将电子表格转换为CSV类型 这个比较简单,基本上用软件打开电子表格后选择另存为就可以定义另存文件的格式和编码了,这是比较简单快捷的。不过也有一些地方需要注意:在另存为CSV文件时,只有当前工作表中的内容会被保存,这是因为CSV文件只能描述一组数据集。如果你的电子表格里有多个工作表的话,需要分别单独存为CSV文件。二、将电子表格转换为JSON 电子表格转...
2019-01-17 12:14:45 2511
原创 数据清洗(一)----- 清洗数据的目的及基本格式、类型与编码
一、数据清洗的目的 简单的来说不干净的数据会导致分析过程中的错误以及结果的错误。举个简单的例子,以前我们上学时做柱形图这种类型的图时,如果大部分数据集中在某个区间而一两个数据离得很远,如果不去除这一两个有问题的数据,那整体的图画出来就会有问题,不能反映数据的情况。二、数据科学的过程1. 问题陈述 清楚的了解你要解决的问题是什么。2. 数据的收集与存储...
2019-01-16 16:24:16 14502
原创 MySQL(十七)----- 锁相关问题
锁是计算机协调多个进程、线程并发访问某一资源的机制。传统的计算机在CPU、RAM、I/O等上采用锁来防止相互争夺的情况,同样,数据库中的数据也是一种共享的资源,如何保证数据并发访问的一致性、有效性是是数据库必须要解决的问题,因此锁的概念就提到数据库上来了。一、MySQL锁概述 相对于其它的数据库而言,MySQL中的锁相对较简单,其显著的特点是不同的存储引擎支持...
2019-01-07 18:24:18 904
原创 MySQL(十六)------ 优化数据库对象
在数据库设计时,通常会有很多问题需要思考,比如是否需要把所有的表按第三范式来设计?表中各字段设计为多大的长度合适?等等这些问题都是需要考虑的;下面介绍的就是通过一些方法来分析,而后进行指导数据库的优化。一、优化表的数据类型及长度 表字段的类型需要根据应用来判断,字段的长度要留有一定的冗余,但不能有大量冗余,具体怎么定可以通过MySQL的函数 procrdure ...
2019-01-07 10:18:43 714 5
原创 MySQL(十五)----- SQL语句优化之索引问题
索引是数据库优化中最常用也是最重要的手段之一,通过索引通常可以解决大多数的SQL性能问题。一、索引的存储分类 索引是在MySQL的存储引擎层中实现的,因此,每种存储引擎的索引都不一定完全相同,也不是所有的存储引擎都支持所有的索引类型。目前MySQL提供了以下4种索引:B-Tree索引:最常见的索引类型,大部分存储引擎都支持B树索引; HASH索引:只有Mem...
2019-01-04 16:06:28 308
原创 MySQL(十五)----- SQL语句优化
通常在数据量较少的时候,我们并没有那么在意SQL语句的性能问题,只要能到达目的即可;但是当你面对浩大的数据量仍然这么做时,面临的往往是耗时良久或者数据崩溃;当然,数据库优化的方式有很多,这里我们着重介绍SQL优化。准备工作: 既然要研究数据量较大的表,那么首先我们需要一个数据库,该数据库里要有很多表,表中要有很多内容;MySQL官方提供了一个模拟电影出租厅...
2018-12-29 18:07:46 464
原创 MySQL(十四)------- MySQL分区
分区是根据一定的规则把数据库中的一张表分解成多个更小的、更容易管理的部分,这些部分作为一个独立的对象可以存放在不同的地方。对于用户来说,访问表里的数据跟不分区没什么差别,但是对于数据库本身及其管理维护来说有很多好处:和单个磁盘或者文件系统相比,分区可以存储更多的数据; 优化查询。在where字句中包含分区条件时,可以只扫描必要的一个或多个分区来提高查询效率;同时在涉及SUM...
2018-12-27 18:26:04 353
原创 MySQL(十三)------ SQL Mode相关问题
MySQL可以在不同的SQL模式下运行,这样,我们可以通过修改SQL模式来达到数据校验、迁移等功能。一、常用的SQL模式 选中某种模式,其实是一系列模式的组合,这样就可以将多种不同功能的原子模式进行组合得到想要的功能。二、SQL Mode简介 在MySQL中,SQL Mode常用来解决下面几类问题:通过设置SQL Mode,...
2018-12-26 15:28:16 434
原创 MySQL(十二)------ SQL中的安全问题
日常开发过程中我们通常只关心SQL语句能否实现预期功能,往往忽略了SQL语句可能会带来的系统漏洞,常遇到的就是SQL注入。一、SQL注入简介 这里不做抽象的解释,可能说完也不会明白,直接用例子来演示SQL注入:1. 首先我们创建一张表并插入一条数据来模拟实际情况下接触不到的数据库CREATE TABLE users ( id int(11) NOT ...
2018-12-26 11:28:13 638
原创 MySQL(十一)------ 事务控制和锁定语句
表锁:MyISAM、MEMORY存储引擎;行锁:InnoDB存储引擎;页锁:BDB存储引擎;默认情况下表锁和行锁都是自动获得的,不需要额外的命令;但是有时候用户需要明确的进行行锁或者进行事务的控制,以便确保整个事务的完整性,这样就需要用到事务控制和锁定语句来完成。一、LOCK TABLE 和 UNLOCK TABLE LOCK TABLE 用于锁定当前线程的表,U...
2018-12-25 17:45:44 441
原创 JQuery学习笔记
一. jQuery教程1. jQuery简介 jQuery是一个JavaScript函数库。 宗旨:“写的少,做的多”。 jQuery 的功能概括 1、html 的元素选取 2、html的元素操作 3、html dom遍历和修改 4、js特效和动画效果 5、css操作 6、html事件操作 7、ajax异步请求方式 8、Utilitie...
2018-12-24 18:15:01 276
原创 用python爬取猎聘网的指定职位信息
写在前面:某日,公司想要招聘一个岗位的人员,想从招聘网上看看相关岗位的薪资及相关条件,于是就有了以下爬取过程。 这里以关键词 “基因” “近一个月内”作为条件爬取相关信息,打开猎聘网,输入 “基因”,选择近一个月内,结果如下:当前显示的是第一页:查看当前链接:发现规律不明显https://www.liepin.com/zhaopin/?init=-1&...
2018-12-24 17:55:09 3505 1
原创 MySQL(十)------ 触发器
触发器是与表有关的数据库对象,在满足定义的条件时触发,然后执行触发器中定义的语句集合,这种特性可以协助应用在数据库端确保数据的完整性。MySQL在5.02版本后开始支持该功能。一、创建触发器 语法如下:CREATE TRIGGER trigger_name trigger_time trigger_event ON tbl_name FOR EACH ROW t...
2018-12-24 15:15:07 266
原创 MySQL报错:Column count doesn't match value count at row 1
最近在使用MySQL时出现该错误 ”Column count doesn't match value count at row 1“,从字面上的理解是列字段与值不匹配,我当时使用的是 ” insert into film(film_id,title,description) values(2,'test','test trigger'); “语句向表里插入数据报了这个错,查了一些解决方法...
2018-12-24 14:55:03 22252 5
原创 MySQL(九)----- 存储过程和函数
如果说前面讲的视图让你对SQL语言开始有了一些新的理解,那么这次讲的存储过程和函数就会让你觉得SQL语言跟其它的编程语言真的很接近,因为它也像别的语言一样去封装函数、定义变量、流程及条件控制、异常捕获等等。MySQL从5.0版本开始支持存储过程和函数。一、什么是存储过程和函数 简单的可以理解成其它语言中封装的函数一样,可以调用这个函数来达到某种功能。但也有一些不同,这...
2018-12-21 18:08:11 417
原创 MySQL(八)----- 视图
注意,MySQL从5.0.1版本开始提供视图功能,使用时注意版本;另外,如果从不支持视图的旧版本升级到提供视图的新版本后,要想使用视图还需要升级授权表,使之包含与视图有关的权限。一、什么是视图 视图是一种虚拟存在的表,它存储的是查询语句,显示出来的是查询的结果;更直白的说就是当我们需要从表中查询一些信息时需要编写相关SQL语句,将这些SQL语句存储为视图,那么我...
2018-12-20 12:38:19 311
原创 MySQL(七)------ 索引的设计和使用
索引是数据库中用来提高性能的最常用工具,下面简单介绍一下索引的类型和设计原则。一、索引概述常用引擎的索引方式 特点 MyISAM InnoDB MEMORY MERGE B树索引 支持(默认) 支持(默认) 支持 支持 哈希索引 支持(默认) 全文索引 支持 ...
2018-12-19 17:39:13 220 1
原创 MySQL(六)------ 字符集
计算机只能识别二进制代码,而人只能看懂文字符号,这两者之间必须要定义一个转换规则来使人和计算机识别的是同一个东西,这个规则就是人们制定的字符集。一、字符集概述 字符集的基础是ASCII码,基本上后来所有的字符集都兼容ASCII字符集,但是,由于各公司、各政府、各机构等创建的字符集编码规则各不相同,这就给软件移植及协同开发带来困难,因此有必要统一字符编码。 ...
2018-12-18 18:13:14 315
原创 MySQL(五)---- 选择合适的数据类型
每当创建一张数据表的时候我们就面临着选择什么样的数据类型,选多大的等等问题,很多人凭感觉选了类型估计了大小,但这么做往往后期出错或浪费空间,因此根据特性选择合适的类型及大小很有必要。一、CHAR 与 VARCHAR 都用来存储字符串,CHAR属于固定长度的字符类型,VARCHAR属于可变长度的字符类型,它们的保存和检索方式不同。从上表可以看出,固定长度的...
2018-12-18 16:27:52 384
原创 MySQL(四)--------表类型(存储引擎)的选择
一、MySQL存储引擎简介 MySQL支持多种存储引擎,以适用于不同领域的数据库应用需要,用户可以根据需要进行选择甚至是定制自己的引擎以提高应用效率。 使用如下命令查看当前版本mysql支持的存储引擎:mysql> show engines \G*************************** 1. row ******************...
2018-12-17 18:12:26 287
原创 MySQL(三)--------常用函数
使用函数的方便性我就不多说了,在MySQL数据库中,函数可以使用在SELECT语句及其字句(例如WHERE、ORDER BY、HAVING等)中,也可以用在UPDATE、DELETE语句及其字句中。一、字符串函数 注意:下面只是演示函数的作用,并未选择具体的数据库及表 1. CONCAT( s1,s2,...sn) 函数:把传入的参...
2018-12-13 18:07:16 464
原创 MySQL(二)------SQL基础
一、SQL简介 SQL(Structure Query Language) 是结构化查询语言,是关系型数据库的应用语言,大多数关系型数据库都支持SQL作为底层会话语言。二、SQL使用入门 在介绍标准SQL语言的同时,我们会根据MySQL自身的特点进行扩展,这样我们不仅掌握了标准SQL语言,也对MySQL的扩展有所了解。2.1 SQL分类 S...
2018-12-10 16:30:38 351
原创 MySQL(一) -----启动与关闭
一、写在前面 MySQL作为强大的开源数据库在各方面已经经受住了考验,不管在商业用途上还是个人用途上都有很大的市场,广泛的用户基础以及成熟的使用经验使得它被越来越多的人学习使用,这里我们就通过一系列的内容来学习使用MySQL。二、安装与配置 关于这部分可能比较繁琐,网上也有很多相关的windows平台及linux平台的安装配置过程,具体需要可以自行搜索,这边...
2018-12-10 11:15:00 4045
原创 机器学习(西瓜书)学习笔记(四)---------神经网络
1. 神经元模型神经网络/人工神经网络:由具有适应性的简单单元组成的广泛并行互连的网络。神经网络学习:机器学习和神经网络两个学科交叉的部分。Neural Networks中的基本单元:神经元。从计算机科学的角度,NN就是一个包含了大量参数的数学模型,该模型由若干个函数相互代入而成。2. 感知机与多层网络感知机,实际由两层神经元组成。输入层和输出层。更一般的,神经...
2018-12-06 11:19:27 817
原创 机器学习(西瓜书)学习笔记(三)---------决策树
1、基本流程 决策树通常从一个最基本的问题出发,通过这个判定问题来对某个“属性”进行“测试”,根据测试的结果来决定导出结论还是导出进一步的判定问题,当然,这个判定范围是在上次决策结果的限定范围之内的。 出发点一般称为根节点,其他的判定位置称为节点,得到的结果一般称为叶,不同的判定导致的不同走向称为枝,这样,一颗完整的决策树就呈现了出来。 决策树学习的目的是...
2018-12-03 18:07:36 616
原创 数据库查询语句实例
1. 查找最晚入职员工的所有信息表结构如下:CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`gender` char(1) NO...
2018-11-23 18:35:27 366
原创 HTML中meta标签的作用与使用
META标签用来描述一个HTML网页文档的属性META标签可分为两大部分:HTTP-EQUIV和NAME变量。name属性name属性主要用于描述网页,与之对应的属性值为content,content中的内容主要是便于搜索引擎机器人查找信息和分类信息用的。meta标签的name属性语法格式是:<meta name=”参数” content=”具体的参数值”> 。其中name属性主要有...
2018-11-15 15:18:27 1993
原创 机器学习(西瓜书)学习笔记(二)---------线性模型
1、基本形式 对含有d个特征的数据x,线性模型试图学得一个通过特征的线性组合来进行预测的函数: f(x) = w1x1 + w2x2 + .......wdxd + b 一般用向量形式写成: f(x) = w^...
2018-11-06 17:57:08 370
原创 机器学习(西瓜书)学习笔记(一)---------模型评估与选择
1、经验误差与过拟合经验误差:一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”; 通常我们想要的一个学习器是能够通过训练样本的学习后能较准确的去预测或分类新的未知的数据,但实际上往往不会如想象中那么顺利,学习器在学习的时候通常会出现两中情况,一是学习得太好,将训练数...
2018-11-01 18:13:06 923
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人