自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 spark笔记(后面是重点)

一、抽样当数据量少时,并不会严格根据抽取分数抽取1. 放回rdd = sc.parallelize(range(10))print(rdd.sample(1,0.5).collect())[0, 1, 2, 4, 6, 6, 7, 7, 7]1或者True2. 不放回rdd = sc.parallelize(range(10))print(rdd.sample(0,0.5).collect())[1, 3, 4, 6, 7, 8]0或者False二、加载处理文件pcq9 = s

2021-12-16 17:20:23 2043 3

原创 键值对RDD

键值对RDD1.创建pairRDD直接创建pairRDD = sc.parallelize([(2,5),(8,9),(4,5)])pairRDD.collect()[(2, 5), (8, 9), (4, 5)]从文件中加载rdd = sc.textFile(r"file:///C:\Users\86178\Desktop\SPARK\word.txt")pairRDD = rdd.flatMap(lambda x:x.split())pairRDD.collect()['pa

2021-11-05 10:28:47 522

原创 学习pandas,这一篇文章就够了!

​ 写了好多天终于完工了,pandas的强大相信用过的都觉得很强,对于数据处理而言可以说是必不可缺的。废话少说,开始肝了!一、创建Series和DataFramepandas有一维数据,二维和多维,一般我们就只使用一二维1. 创建Series​ Series是一维,如下所示:​ 直接利用列表创建list_name = ['Alice','Bob','Cindy','Eric','Halen','Grace']series = pd.Series(list_name)print(series)

2021-10-01 15:51:43 584 4

原创 spark运行报错Please install psutil to have better support with spilling

记录一下错误,在windows上面运行spark报错 words = sc.parallelize(['scala','java','hadoop','spark','scala','hadoop','spark','scala'])words.distinct().count()最然能够运行出结果,但是会报错Please install psutil to have better support with spilling解决办法: 直接在c...

2021-09-24 12:07:24 3280 3

原创 波士顿房价预测(深度学习)与找到影响房价的决定性因素(最速下降法)

波士顿房价预测(深度学习)与找到影响房价的决定性因素(最速下降法)本文针对解决的问题:波士顿房价进行预测采用了两种方法:​ 1. 搭建神经网络进行预测(激活函数为线性回归)。​ 2. 最速下降法求得各属性的权值(权值的大小决定房价的影响因素),然后根据各个属性的值乘以权值加上偏置得到预测的值。文章目录波士顿房价预测(深度学习)与找到影响房价的决定性因素(最速下降法)一、房价预测1. 导入数据并处理2. 归一化3. 搭建网络4. 训练数据5. 结果分析二、影响房价的决定性因素1. 最速下降法原理及其

2021-09-03 00:03:36 5465

原创 非常详细的范式讲解(1NF/2NF/3NF/BCNF)

范式​ 范式在计算机方面运用广泛,在计算机二级三级均有涉及到,今天就来讲讲范式。要是能够认真的看完,相信一定能够理解的。​ 在讲范式之前,我们先来了解有关范式的基本概念,听懂了有利于后面的学习。函数依赖​ 首先一个好的关系模式是不会出现以下问题的:1. 插入异常2. 删除异常3. 更新异常4. 数据冗余尽量少如果出现那是由于数据依赖,其中数据依赖分为:函数依赖,多值依赖,连接依赖等等。所以,当关系模式出现问题,解决方法为——规范化理论(找到关系模式中不适合的数据依赖,并消除它们)

2021-08-16 18:48:28 6191 3

原创 爬取私募排排网历史净值和破解加密数值

爬取私募排排网历史净值和破解加密数值​ 近期爬取了私募排排网上的历史净值,写一下爬取过程中的一些心得体会。​ 上面有很多的难点,例如直接利用selenium会被检测出反爬、爬取的数值被加密(页面上看到的和html中不一样,多了一些隐藏值)等等。爬取的方法主要就是selenium、正则、beautiful soup。这里先把这里使用的库导入。from selenium import webdriverfrom bs4 import BeautifulSoupfrom selenium.webdriv

2021-08-14 10:39:06 1341 9

原创 pyecharts安装和爬取前程无忧招聘网站数据分析(二)

当我第一次看见pyecharts,就发现它是一个非常厉害的绘图工具,相比较于matplotlib,它不仅仅是动态的,更有很多的绘图种类,例如饼图、折线图、箱型图、地图、词云图等等。大家可以去官网先去预览,Candlestick - Kline_datazoom_inside - Document (pyecharts.org)...

2021-08-09 14:58:35 787 16

原创 手把手Selenium安装使用及实战爬取前程无忧招聘网站(一)

爬虫的方法有很多,但是我认为最牛逼的还是selenium。 那么,selenium到底是什么呢?它为什么叫自动化呢?那是因为它能模拟人为操作浏览器,而且也不需要requests解析网页,他自己就可以解析。下面废话少说,直接开肝!一、安装浏览器驱动器 selenium为什么要安装驱动器呢?因为就相当于汽车的引擎,如果没有,就不能驱动。 驱动器有两种,一个是谷歌的,还有一个是火狐的。我是安装的谷歌的,只需要找到与浏览器对应的驱动器下载...

2021-08-04 14:10:16 3120 10

原创 搭建代理IP池

目录爬取前的准备爬取有IP内容检查IP的可用性上一期讲到在爬取豆瓣电影Top250时,出现ip被封的情况,解决方案给出了两种: 1. 换个WiFi或者热点; 2. 搭建代理IP池。那么这期就来搭建代理IP池。通常来说,搭建代理IP池,就是爬取代理IP网站,然后做成一个IP的形式,最后在requests请求访问网站的时候proxies指定IP去访问。爬取前的准备 有很多...

2021-07-30 22:17:59 18299 2

原创 爬取豆瓣电影Top250和数据分析

爬取豆瓣电影内容,并将其写入excel,对数据进行数据分析方法:requests,BeautifulSoup,pandas一、 爬取 爬取豆瓣电影内容方法是:先在主页面(每页25部电影,一共10页)上爬取每部电影的网址,然后依次进入每部电影的网址爬取内容。1.爬取主页面在爬取之前,需要找到headers和url。 headers主要是由User-Agent构成,其作用是告诉HTTP服务器, 客户端使用的操作系统和浏览器的名称和版本。在爬取...

2021-07-29 16:39:52 17580 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除