自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 学习笔记1:分类方法

名词:偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。泛化能力:机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。过拟合:噪音数据:即无意义的数据,包含所有难以被机器正确理解和翻译的数据,如非结构化文本。..

2021-10-10 20:30:27 944

原创 java数据结构与算法 学习笔记2:栈

一、实现栈的思路:使用数组来模拟栈定义一个top表示栈顶,初始化为-1;入栈的操作,当有数据加入栈时,top++;stack[top]=data;出栈的操作,int value=stack[top];top–;return value;二、代码演示package com.stack;import java.util.Arrays;import java.util.Scanner;public class ArrayStackDemo { public static void

2021-09-12 14:46:45 152

原创 java数据结构与算法 学习笔记2:队列

一、队列的应用场景如银行排队二、介绍队列是一个有序列表,可以用数组或是链表来实现。遵循先入先出的原则。即:先存入队列的数据,要先取出。后存入的要后取出。三、数组模拟队列的思路队列本身是有序列表,若使用数组的结构来存储队列的数据,其中maxSize是该队列的最大容量。因为队列的输入输出是分别从前后端来处理的,因此需要两个变量front和rear分别记录队列前后端的下标,front会随着数据输出而改变,rear随着数据输入而改变。当我们将数据存入队列式称为“addQueue”,addQue

2021-09-10 20:01:31 148

原创 java数据结构与算法 学习笔记1:稀疏数组转换的思路

一、稀疏数组的应用场景基本介绍:当一个数组中大部分元素为0或同一个值的数组时,可以使用稀疏数组来保存该数组。处理方法:记录数组一共有几行几列,有多少个不同的值。把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小程序的规模。应用场景:编写五子棋程序时,实现存盘退出和续上盘的功能。二、4. 二维数组转化为稀疏数组的思路:遍历原始的二维数组,得到有效的数据的个数sum根据sum就可以创建稀疏数组,sparseArr int[sum+1][3]将二维数组的有效数据存入到稀

2021-09-09 19:44:03 118

原创 学习笔记 数据结构与算法

数据结构:空间复杂度和时间复杂度数据结构1 数组Array数据结构2 链表(Linked List)数据结构3 队列(Queue)数据结构4 栈(Stack)数据结构5 哈希表(Hash Table)数据结构6 集合(Set)数据结构7 树(Tree)数据结构8 堆(Heap)数据结构9 图(Graph)算法:算法...

2021-08-10 10:18:11 112

原创 学习笔记 算法

一、 双指针普通双指针:两个指针往同一个方向移动(有时不是同一个方向)对撞双指针:两个指针面对面移动快慢双指针:慢指针+快指针例:a = [1,4,5,7,9](有序数组) 两个数相加等于12,且两个数不能相同。对撞双指针:例:检测是否为环形链表快慢双指针:慢指针每次循环移动一格,快指针移动两格,最终是否相遇。二、 二分查找法特点:一定要有序(数组元素单调增或单调减)三、滑动窗口目的:减少while循环应用:数组中的定长问题四、递归定义:函数直接或者间接调用自己四个要素

2021-08-09 22:09:09 176

原创 数据结构9 图(Graph)

图:顶点:与树中的节点相同。邻居节点边:两个顶点之间的线度:指一个顶点有几条边顶点更像邻居关系,可以有多条路径。分类:无向图有向图权重图有向图:入度:多少边指向该顶点出度:多少边从这个点指向别的顶点权重图算法:贝尔曼-福特算法(Bellman-Ford)狄克斯特拉算法(Dijkstra)DFSBFS...

2021-08-08 22:33:38 196

原创 数据结构8 堆(Heap)

堆:一种二叉树的结构–完全二叉树,且每个节点的值都≥或≤孩子节点。最大堆:每个节点的值都≥孩子节点(堆顶元素是最大值)最小堆:每个节点的值都≤孩子节点(堆顶元素是最小值)复杂度访问(acess):无搜索:O(1) (堆顶)添加:O(logN)删除:O(logN) 一般是堆顶Python常用操作import heapq//创建堆minheap = []//添加元素heapq.heappush(minheap,10)heapq.heappush(minheap,8)h.

2021-08-08 17:28:01 150

原创 数据结构7 树(Tree)

树:描述的是一种父子关系。节点:代表树中的元素。根节点:第一个开始的节点叶子节点:最底层的节点,没有孩子的节点深度:从上往下计算,最下一层为0高度:从下往上计算,最上一层为0层:根节点作为第一层,从上往下计算。二叉树:普通二叉树:每个节点最多两个孩子满二叉树:除了叶子结点,每个节点都有左右两个孩子,所有叶子结点在同一层上。完全二叉树:从树的根节点,从上到下,从左到右依次填满节点形成的二叉树满二叉树一定是完全二叉树二叉树的遍历:前序遍历:先访问根节点,然后访问左节点,最.

2021-08-08 16:32:33 299

原创 数据结构6 集合(Set)

特点:无序,不重复主要作用:检查某一个元素是否存在是否有重复元素HashSet:实质上背后是一张哈希表,元素通过哈希函数得到哈希值。复杂度访问: 没有这个方法搜索:O(1), 如果有hash碰撞的情况下,就不是O(1)了,为O(K), K为碰撞元素的个数插入: O(1); 有hash冲突O(k)删除: O(1); 有hash冲突O(k)Python常用操作:#创建集合s = set()#添加元素s.add(1)s.add(4)s.add(3)s.add.

2021-08-08 11:20:15 125

原创 数据结构5 哈希表(Hash Table)

键值对 key : value哈希碰撞:两个不同的key通过同一个hash函数得到相同的内存地址4通过哈希函数解析出的地址也是1,冲突了。解决方法:链表法, 在后面通过链表加入内存地址相同的值。复杂度访问: 没有这个方法搜索:O(1), 如果有hash碰撞的情况下,就不是O(1)了,为O(K), K为碰撞元素的个数插入: O(1)删除: O(1)Python常用操作:创建哈希表:# 使用数组创建hashhashTable = ['']x4# 使用字典创建hash.

2021-08-07 17:43:04 219

原创 数据结构4 栈(Stack)

栈:先进后出。基于链表创建的。应用:浏览器后退功能。复杂度:访问: O(1)只访问栈顶元素。搜索:O(N)插入: O(1)只在栈的尾端插入。删除: O(1)只删除栈顶元素。Python栈的常用操作:创建栈stack = []添加元素stack.append(1)stack.append(2)stack.append(3)查看栈顶元素 – 即将出栈的元素stack[-1]删除栈顶元素 – 即将出栈的元素temp = stack.pop.

2021-08-07 00:09:18 202

原创 数据结构3 队列(Queue)

队列:类似排队,先到先得。(比如:管道只有一端可以入队,另一端可以出队)特点:先入先出。单端队列:只有一个口可以进,一个口可以出。双端队列:两个端都利用进,两个端都可以出。(分方向)复杂度:访问: O(N)搜索:O(N)插入: O(1)删除: O(1)python队列常用操作:创建队列queue = deque()添加元素queue.append(1)queue.append(2)queue.append(3)print(queue) #[1,2,3.

2021-08-06 20:51:25 111

原创 数据结构2 链表(Linked List)

链表:非连续空间,包含当前数据和下一节点的地址。单端链表:只能从前一个元素指向后一个元素。双端链表:可以向下移动,也可以向前移动。复杂度:访问(access) O(N)搜索 (Search)O(N)插入(Insert) O(1)删除 (Delete)O(1)特点:写很快,读很慢(读少写多)Python链表常用操作:创建链表linkedlist = deque() 添加元素linkedlist.append(1)linkedlist.append(2)lin.

2021-08-06 17:12:26 125

原创 数据结构1 数组Array

数组:在连续的内存空间中,存储一组相同类型的元素。区分:数组的访问(Access)和数组的搜索(Search)数组的访问(Access):通过索引访问某个元素数组的搜索(Search):查找某个元素数据结构的四个方法:访问(Access) o(1)例:a = [1,2,3] 访问a[1] : 数组自带的内存地址+当前元素的位置*当前一个元素所占空间大小 从这个位置取数搜索(Search) o(N)从头开始遍历数组中的元素插入(Insert) o.

2021-08-06 14:59:11 151

原创 空间复杂度和空间复杂度

一、什么是时间复杂度算法的执行效率算法的执行时间与算法的输入值之间的关系例:def test(num): total = 0 for i in range(num): total += i return total假设该示例中“total = 0”的执行时间为a,“total += i”的执行时间为b,“return total”执行时间为c,num=N,故总执行时间为a+Nb+c。其中对总执行时间影响最大的是Nb。(时间复杂度不关心系数和小的执行时间。)** 时间复杂度的大o表

2021-08-06 09:18:00 139 1

原创 五月学习总结

五月学习了hadoop集群的伪分布式和完全分布式搭建、hdfs的基本原理和常用命令、hive与zookeeper的配置和使用以及部分MapReduce的学习。链接:学习笔记1 hive基本操作学习笔记2 hive表查询学习笔记3 hive数据分析(实例)学习笔记1 hdfs常用命令学习笔记1 zookeeper学习笔记 MapReduce...

2021-05-30 10:15:10 142

原创 学习笔记 MapReduce

一、MapReduce概述1. 定义MapReduce是一个分布式运算程序的编程框架。2. 优势劣势优点:易于编程:用户只需关心业务逻辑。实现框架的接口。良好的扩展性:可以动态增加服务器,解决计算资源不够问题。高容错性:任何一台机器挂掉,可以将任务转移到其他节点。室和海量数据计算(TB/PB)。几千台服务器同时计算。缺点:不擅长实时计算。 (mysql)不擅长流式计算。(sparktreaming flink)不擅长DAG有向无环图计算。(spark)3. 核心编程思想M

2021-05-30 10:11:18 112

原创 学习笔记1 zookeeper

1. zookeeper是什么它是一个分布式服务框架,它主要是用来解决分布式应用中经常遇到的一些数据管理问题。(zookeeper=文件系统+监听通知机制。)实现诸如分布式应用配置管理、统一命名服务、状态同步服务、集群管理等功能。2.常用命令启动./zkServer.sh start查看状态./zkServer.sh status帮助命令 :help客户端连接:./zkCli.sh创建节点...

2021-05-30 10:04:59 86

原创 学习笔记1 hdfs常用命令

1.

2021-05-29 19:32:38 203

原创 学习笔记3 hive数据分析(实例)

目的:分析企业新闻舆情的正负面性与该公司是否有非法集资风险的关系。思路:将两张表连接成一张新表;根据“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”进行数据去重。操作:1.使用xftp将数据集远程传输到本地中。2.创建数据库create database if not exists mytask;3.选择操作某数据库use mytask;4.创建表create external table test..

2021-05-26 20:52:25 1229

原创 学习笔记2 hive表查询

1. selectselect [ALL | DISTINCT] select_expr,select_expr,...from table_reference[where where_condition][group by col_list [having condition]][cluster by col_list| [distribute by col_list] [sort by | order by col_list]][limit number]2. 查询语法全表查询

2021-05-19 20:51:25 293

原创 学习笔记1 hive基本操作

一、数据库操作创建数据库创建数据库myhivecreate database if not exists myhive;2.创建数据库并指定位置create database myhive2 location '/myhive2';选择操作某数据库use myhive;创建表create table t_test(id int , name string);在hive内,数据库与数据库中的表是以目录的形式存在的。创建数据库键值对信息数据库可以有一些描述性的键值对

2021-05-18 20:33:17 200

原创 数据结构 学习笔记

分类数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。1. 数组数组是可以再内存中连续存储多个元素的结构,在内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始。适用于频繁查询,对存储空间要求不大,很少增加和删除的情况。2. 栈栈是一种特殊的线性表,仅能在线性表的一端操作,栈顶允许操作,栈底不允许操作。特点:先进后出从栈顶放入元素的操作叫入栈,取出元素叫出栈。适用于实现递归功能方面的场景,例如斐波那契数列。3. 队列特

2021-04-18 18:14:46 551

原创 前端 学习笔记3 表单

1. HTML表单HTML表单用于搜集不同用户类型的输入。表单元素指的是不同类型的 input 元素、复选框、单选按钮、提交按钮等等。< form>类型定义表单< input> 元素< input> 元素是最重要的表单元素。< input> 元素有很多形态,根据不同的 type 属性。文本输入< input type=“text”>单选按钮输入< input type=“radio”>提交按钮< in

2021-04-18 17:01:54 199

原创 前端 学习笔记2 标签

1. HTML语法规范1.1 基本语法概述HTML标签是由尖括号包围的关键词所有的标签都包含在 <> 中,大部分情况下是成对出现的。双标签:<html></html>前面的叫开始标签,后面的叫结束标签。(结束标签有 / )单标签:<br />1.2 标签关系双标签关系可分为:包含关系 并列关系包含关系:<head> <title> </title></head>并

2021-04-11 00:01:16 376

原创 前端 学习笔记1 网页和web标准

1.网页1.1 什么是网页

2021-04-09 21:17:04 89

原创 爬虫 学习笔记4 数据提取

1.响应分类结构化关系数据库表形式管理的数据半结构化非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等。json模块、re模块、jsonpath模块、lxml模块非结构化没有固定模式的数据,如HTML、WORD、PDF、PPT、EXL,各种格式的图片、视频等re模块、lxml模块2.XML和HTML的区别xml:(是树状结构)可扩展标记语言注重传输和储存数据html:超文本标记语言注重显示和如何更好地显示数据3.json

2021-04-07 23:04:22 171

原创 爬虫 爬取豆瓣电影Top250并保存数据至表格

步骤准备工作获取数据解析内容保存数据#-*- codeing = utf-8 -*-from bs4 import BeautifulSoup #网页解析,获取数据import re #正则表达式,进行文字匹配import urllib.request,urllib.error #制定URL,获取网页数据import requestsimport xlwt #进行execl操作import sqlite3 #进行SQLite数据库操作def main()

2021-04-05 21:10:34 750

原创 爬虫 学习笔记3 保存数据到Excel

#-*- codeing = utf-8 -*-import xlwt'''workbook = xlwt.Workbook(encoding="utf-8") #创建workbook对象worksheet = workbook.add_sheet('sheet1') #创建工作表worksheet.write(0,0,'hello') #写入数据,第一个参数:“行”,第二个参数:“列”,第三个参数:内容workbook.save('student.xls') #保存

2021-04-05 20:24:55 86

原创 爬虫 学习笔记1 正则表达式

正则表达式字符串模式(判断字符串是否符合一定的标准)#-*- codeing = utf-8 -*-import re#创建模式对象'''pat = re.compile("AA") #此处的AA,是正则表达式,用来去验证其他的字符串#m = pat.search("CBA") #search字符串被校验的内容m = pat.search("ACBAADDAACCA") #search方法,进行比对查找print(m) #<re.Match

2021-04-05 16:54:26 132 1

原创 爬虫 学习笔记2 BeautifulSoup及应用

一、requests模块二、re模块

2021-04-02 21:46:54 104

原创 爬虫 爬取图片

代码:#先导入需要的模块import time import requestsimport reimport os#打开文件file = open("D:\爬虫资料\微博图片.txt",encoding='utf-8')#lines = file.readlines()file.seek(0) #把指针移到文件开头位置for line in file.readlines(): #readlines以列表输出文件内容 line=line.split(",")

2021-04-02 19:00:35 578

原创 爬虫 一些爬取图片时出现的错误

报错** 在爬取大量图片时遇到的报错**解决方法:IP被封更换headers或者换代理IPproxies = {"http": "http://101.132.111.208:8082"}** 注:代理分为http和https两种,不能用混。**http的连接数超过最大限制。headers的Connection参数默认为keep-alive,导致之前所有的链接都一直存在,占用了后续的链接请求。requests.adapters.DEFAULT_RETRIES = 5 # 增加

2021-04-02 18:55:01 12430

原创 学习笔记5 pandas

一、创建对象1、导入pandas库和numpy库import numpy as npimport pandas as pd2、导入CSV或者xlsx文件df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1))df = pd.DataFrame(pd.read_excel(‘name.xlsx’))3、创建对象1.创建Seriesimport pandas as pd# 创建series(通过数据创建)pd.Series(["a","b"

2021-03-20 23:24:49 165

原创 学习笔记4 seaborn库

整体布局import seaborn as snsset_style( ) 和 set( )set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid(默认,横纵坐标都有标线,组成一个一个格子,背景稍微深色) , whitegrid(横坐标有标线,纵坐标没有标线,背景白色) , dark(背景稍微深色,没有标线线) , white (背景白色,没有标线线),和 ticks(xy轴都有非常短的小刻度) 默认: darkgridimport matplotlib.

2021-02-22 19:26:13 242

原创 学习笔记3 matplotlib

1、认识matplotlib

2021-02-21 17:55:15 83

原创 学习笔记2 numpy

1.什么是numpynumpy(Numerical Python)提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。2.numpy创建数组2.1 ndarraynumpy中定义的最重要的对象是称为 ndarray 的 N 维数组类型。 它描述相同类型的元素集合。 可以使用基于零的索引访问集合中的项目。2.2ndarray属性:ndim属性:表示维度个数shape属性:表示

2021-02-06 14:44:19 452

原创 双指针

##双指针例题:给定一个排序数组,你需要在 原地 删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。示例 :给定 nums = [0,0,1,1,1,2,2,3,3,4],函数应该返回新的长度 5, 并且原数组 nums 的前五个元素被修改为 0, 1, 2, 3, 4。思路:首先数组需要排序,使得重复元素相邻。放置快慢两个指针p和q。比较p和q位置的元素是否相等:如果相等

2021-02-01 21:53:46 94 1

原创 学习笔记1 面向对象

这里写自定义目录标题欢迎使用Markdown编辑器标题新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用M

2021-02-01 17:49:37 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除