Panda4u-CSDN博客

原创 spark笔记（后面是重点）

一、抽样当数据量少时，并不会严格根据抽取分数抽取1. 放回rdd = sc.parallelize(range(10))print(rdd.sample(1,0.5).collect())[0, 1, 2, 4, 6, 6, 7, 7, 7]1或者True2. 不放回rdd = sc.parallelize(range(10))print(rdd.sample(0,0.5).collect())[1, 3, 4, 6, 7, 8]0或者False二、加载处理文件pcq9 = s

2021-12-16 17:20:23 2043 3

原创键值对RDD

键值对RDD1.创建pairRDD直接创建pairRDD = sc.parallelize([(2,5),(8,9),(4,5)])pairRDD.collect()[(2, 5), (8, 9), (4, 5)]从文件中加载rdd = sc.textFile(r"file:///C:\Users\86178\Desktop\SPARK\word.txt")pairRDD = rdd.flatMap(lambda x:x.split())pairRDD.collect()['pa

2021-11-05 10:28:47 522

原创学习pandas，这一篇文章就够了！

写了好多天终于完工了，pandas的强大相信用过的都觉得很强，对于数据处理而言可以说是必不可缺的。废话少说，开始肝了！一、创建Series和DataFramepandas有一维数据，二维和多维，一般我们就只使用一二维1. 创建Series Series是一维，如下所示：直接利用列表创建list_name = ['Alice','Bob','Cindy','Eric','Halen','Grace']series = pd.Series(list_name)print(series)

2021-10-01 15:51:43 584 4

原创 spark运行报错Please install psutil to have better support with spilling

记录一下错误，在windows上面运行spark报错 words = sc.parallelize(['scala','java','hadoop','spark','scala','hadoop','spark','scala'])words.distinct().count()最然能够运行出结果，但是会报错Please install psutil to have better support with spilling解决办法：直接在c...

2021-09-24 12:07:24 3280 3

原创波士顿房价预测（深度学习）与找到影响房价的决定性因素（最速下降法）

波士顿房价预测（深度学习）与找到影响房价的决定性因素（最速下降法）本文针对解决的问题：波士顿房价进行预测采用了两种方法： 1. 搭建神经网络进行预测（激活函数为线性回归）。 2. 最速下降法求得各属性的权值（权值的大小决定房价的影响因素），然后根据各个属性的值乘以权值加上偏置得到预测的值。文章目录波士顿房价预测（深度学习）与找到影响房价的决定性因素（最速下降法）一、房价预测1. 导入数据并处理2. 归一化3. 搭建网络4. 训练数据5. 结果分析二、影响房价的决定性因素1. 最速下降法原理及其

2021-09-03 00:03:36 5465

原创非常详细的范式讲解（1NF/2NF/3NF/BCNF）

范式范式在计算机方面运用广泛，在计算机二级三级均有涉及到，今天就来讲讲范式。要是能够认真的看完，相信一定能够理解的。在讲范式之前，我们先来了解有关范式的基本概念，听懂了有利于后面的学习。函数依赖首先一个好的关系模式是不会出现以下问题的：1. 插入异常2. 删除异常3. 更新异常4. 数据冗余尽量少如果出现那是由于数据依赖，其中数据依赖分为：函数依赖，多值依赖，连接依赖等等。所以，当关系模式出现问题，解决方法为——规范化理论（找到关系模式中不适合的数据依赖，并消除它们）

2021-08-16 18:48:28 6191 3

原创爬取私募排排网历史净值和破解加密数值

爬取私募排排网历史净值和破解加密数值近期爬取了私募排排网上的历史净值，写一下爬取过程中的一些心得体会。上面有很多的难点，例如直接利用selenium会被检测出反爬、爬取的数值被加密（页面上看到的和html中不一样，多了一些隐藏值）等等。爬取的方法主要就是selenium、正则、beautiful soup。这里先把这里使用的库导入。from selenium import webdriverfrom bs4 import BeautifulSoupfrom selenium.webdriv

2021-08-14 10:39:06 1341 9

原创 pyecharts安装和爬取前程无忧招聘网站数据分析（二）

当我第一次看见pyecharts，就发现它是一个非常厉害的绘图工具，相比较于matplotlib，它不仅仅是动态的，更有很多的绘图种类，例如饼图、折线图、箱型图、地图、词云图等等。大家可以去官网先去预览，Candlestick - Kline_datazoom_inside - Document (pyecharts.org)...

2021-08-09 14:58:35 787 16

原创手把手Selenium安装使用及实战爬取前程无忧招聘网站（一）

爬虫的方法有很多，但是我认为最牛逼的还是selenium。那么，selenium到底是什么呢？它为什么叫自动化呢？那是因为它能模拟人为操作浏览器，而且也不需要requests解析网页，他自己就可以解析。下面废话少说，直接开肝！一、安装浏览器驱动器 selenium为什么要安装驱动器呢？因为就相当于汽车的引擎，如果没有，就不能驱动。驱动器有两种，一个是谷歌的，还有一个是火狐的。我是安装的谷歌的，只需要找到与浏览器对应的驱动器下载...

2021-08-04 14:10:16 3120 10

原创搭建代理IP池

目录爬取前的准备爬取有IP内容检查IP的可用性上一期讲到在爬取豆瓣电影Top250时，出现ip被封的情况，解决方案给出了两种： 1. 换个WiFi或者热点； 2. 搭建代理IP池。那么这期就来搭建代理IP池。通常来说，搭建代理IP池，就是爬取代理IP网站，然后做成一个IP的形式，最后在requests请求访问网站的时候proxies指定IP去访问。爬取前的准备有很多...

2021-07-30 22:17:59 18299 2

原创爬取豆瓣电影Top250和数据分析

爬取豆瓣电影内容，并将其写入excel，对数据进行数据分析方法：requests，BeautifulSoup，pandas一、爬取爬取豆瓣电影内容方法是：先在主页面（每页25部电影，一共10页）上爬取每部电影的网址，然后依次进入每部电影的网址爬取内容。1.爬取主页面在爬取之前，需要找到headers和url。 headers主要是由User-Agent构成，其作用是告诉HTTP服务器，客户端使用的操作系统和浏览器的名称和版本。在爬取...

2021-07-29 16:39:52 17580 143

Panda4u的博客