AI-Rui-CSDN博客

原创 python爬虫+数据分析相关技巧(持续更新....)

Python pandas 读取文件——读取具有明显分隔符的数据

2020-05-29 13:59:56 324

原创小白实战学习Spark02----bug汇总

value $ is not a menber of StringContextscala中的Seq 和 Set 的区别scala中的_和_*的区别

2020-05-29 10:50:26 200

决策树算法预测森林植被2.1 回归简介2.2 向量与特征2.3 样本训练2.4 决策树和决策森林2.5 Covtype数据集2.6 准备数据2.7 第一棵决策树数据预处理构建第一个决策树分类模型2.8 决策树的超参数2.1 回归简介回归与分类回归是预测一个数值型数量分类是预测标号或者类别监督学习：两者都需要从一组输入和输出中学习预测规则（即需要告诉其问题与答案）2.2 向量与特征特征：也叫维度数值型特征：可以用数值进行量化的特征，并且对这些特征排序是有意义的类别型特征：不

2020-05-27 11:20:50 1711

原创小白实战学习Spark01----bug汇总

bug汇总SparkContext、SparkConf和SparkSession的初始化Spark运行报错：无法解析重载方法“agg”若出现 package macros contains object and package with same name: blackbox one of them needs to be removed from classpath此类的错误，是因为包冲突，把pom.xml文件重新搞下就好了【Scala】使用Option、Some、None，避免使用null

2020-05-25 10:36:23 301

原创小白实战学习Spark01-音乐推荐和Audioscrobbler数据集

音乐推荐和Audioscrobbler数据集1.1 数据集1.2 交替最小二乘推荐算法1.1 数据集该数据集属于隐式反馈数据user_arist_data.txt:包括141000个用户和160万个艺术家，记录了约2420万条用户播放艺术家歌曲的信息，其中包括播放次数信息artist_data.txt:包括每个艺术家的ID和对应的名字。artist_alias.txt：目的是为了将拼写错误的艺术家ID或ID变体对应到该艺术家的规范ID。1.2 交替最小二乘推荐算法协同过滤算法：根据两个

2020-05-25 10:35:46 1444

原创小白学习Spark07-Spark MLlib

Spark MLlib7.1 概述7.2 系统要求7.3 机器学习基础7.4 数据类型7.4.1 操作向量7.5 算法7.5.1 特征提取7.5.2 统计7.5.3 分类与回归7.5.4 聚类7.5.5 协同过滤与推荐7.5.6 降维7.5.7 模型评估7.6 一些提示与性能考量7.6.1 准备特征7.6.2 配置算法7.6.3 缓存RDD以重复使用7.6.4 识别稀疏程度7.6.5 并行度8.总结7.1 概述设计理念：把数据以RDD的形式表示，然后再分布式数据集上调用各种算法；即RDD上一系列可供调

2020-05-20 22:00:14 406

原创小白学习Spark06-Spark Streaming

Spark Streaming6.1 简介6.2 架构与抽象6.3 转化操作6.3.1 无状态转化操作6.3.2 有状态转化操作6.3.2.1 基于窗口的转化操作6.3.2.2 UpdateStateByKey 转化操作6.4 输出操作6.5 输入源6.5.1 核心数据源6.5.2 附加数据源6.5.3 多数据源与集群规模6.6 24/7不间断运行6.6.1 检查点机制6.6.2 驱动器程序容错6.6.3 工作节点容错6.6.4 接收器容错6.6.5 处理保证6.7 Streaming用户节点6.8 性能考

2020-05-19 11:43:15 404

原创小白学习Spark05-Spark SQL

Spark SQL5.1 连接Spark SQL5.2 在应用中使用Spark SQL5.2.1 初始化Spark SQL5.2.2 基本查询示例5.2.3 SchemaRDD5.2.4 缓存Spark SQL:是Spark用来操作结构化和半结构化数据的接口Spark SQL三大功能Spark SQL可以从各种结构化数据源（如JSON、Hive、Parquet等）中读取数据Spark SQL支持在Spark程序内使用SQL语句进行数据查询，也支持从外部工具（例如Tableau）通过标准数据库连接

2020-05-16 14:29:41 343

原创小白学习Spark04-Spark调优与调试

Spark调优与调试4.1 使用SparkConf配置Spark4.2 Spark执行的组成部分：作业、任务和步骤4.3 查找信息4.3.1 Spark网页用户界面4.3.2 驱动器进程和执行器进程的日志4.1 使用SparkConf配置Spark三种方式配置SparkConf的值在代码中修改通常可以通过修改Spark应用的运行时配置选项对Spark进行性能调优，在Spark中最主要的配置机制是通过SparkConf类对Spark进行配置。 //在Scala中使用SparkConf创建一

2020-05-15 14:05:35 228

原创小白学习Spark03-在集群上运行Spark

03 在集群上运行Spark3.1 Spark运行架构3.1.1 驱动器节点3.1.2 执行器节点3.1.3 集群管理器3.1.4 启动Spark程序3.1.5 小结3.2 使用spark-submit部署应用3.3 打包代码与依赖3.3.1 使用Maven构建的用JAVA编写的Spark应用3.3.2 使用sbt构建的用Scala编写的Spark应用3.3.2 依赖冲突3.4 Spark应用内与应用间调度3.5 集群管理器3.5.1 独立集群管理器3.5.2 Hadoop YARN3.5.2 Apache

2020-05-13 23:22:36 288

原创小白学习Spark02-SparkCode(下)

四、SparkCode 进阶4. 1 共享变量4.1.1 累加器4.1.2 广播变量4. 2 基于分区进行操作4. 3 与外部程序间的管道4. 4 数值RDD的操作4. 1 共享变量共享变量：是一种可以在Spark任务中使用的特殊类型的变量两种类型的共享变量累加器（accumulator）：累加器用来对信息进行聚合广播变量（broadcast variable）：广播变量用来高效分发较大的对象通常在向Spark传递函数时，比如使用map（）函数或者filter（）传条件时，可以使用驱动器

2020-05-12 16:42:00 313

原创小白学习Spark02-SparkCode(上)

文章目录一、RDD编程1.1 RDD基础1.2 创建RDD1.3 RDD操作1.3.1 转化操作1.3.2 行动操作1.3.3 惰性求值1.4 向Spark传递函数1.4.1 Scala1.5 常见的转换操作和行动操作一、RDD编程1.1 RDD基础RDD:是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群上的不同节点上。两种方法创建RDD:1).读取一个外部数据集、2).在驱动程序中分发驱动器程序中的对象集合RDD支持两种类型的操作: 1).转换操作(tran

2020-05-11 10:29:07 679

原创小白学习Spark01-配置环境（从centos7安装——Spark集群高可用）

文章目录Spark集群高可用01.配置Linux操作系统集群（Centos7）（1）准备原料（2）安装Centos7（3）构建NAT网络集群02.安装Spark集群（1）准备原料（2）安装jdk和spark（3）安装Spark集群03.Spark集群高可用（1）准备原料（2）安装和配置zookeeper（3）配置Spark集群高可用Spark集群高可用01.配置Linux操作系统集群（Cent...

2020-03-27 23:46:38 316

原创小白从0学习推荐系统 ---05 推荐算法详解

文章目录常用算法分类基于人口统计学的推荐基于内容的推荐算法与特征工程基于协同过滤的推荐基于近邻的推荐基于用户的协同过滤（User-CF）基于物品的协同过滤（Item-CF）基于近邻的推荐的优缺点基于模型的协同过滤隐语义模型（LFM）常用算法分类基于人口统计学的推荐基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法，它只是...

2020-03-18 22:10:18 945

原创小白从0学习推荐系统 ---04 机器学习模型介绍

文章目录监督学习回归模型监督学习回归模型线性回归模型线性回归(Linear Regression)是一种线性模型，它假设输入变量x和单个输出变量y之间存在线性关系具体来说，利用线性回归模型，可以从一组输入变量x的线性组合中，计算输出变量yy=ax+bf(x)=w1x1+w2x2+...+wdxd+bf(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{...

2020-03-15 11:41:33 214

原创小白从0学习推荐系统 ---03 机器学习基础

文章目录机器学习机器学习是什么？机器学习的定义机器学习的过程机器学习的分类无监督学习无监督学习应用监督学习监督学习应用监督学习的深入介绍监督学习的三要素监督学习实现步骤模型评估策略训练集和测试集损失函数损失函数分类经验风险训练误差和测试误差过拟合和欠拟合模型的选择正则化奥卡姆剃刀交叉验证分类和回归分类问题精确率和召回率精确率召回率回归问题模型求解算法(学习算法)梯度下降法牛顿法和拟牛顿法机器学习...

2020-03-10 16:53:27 206

原创小白从0学习推荐系统 ---02 机器学习数学基础

文章目录线性代数什么是线性代数？矩阵特殊矩阵矩阵中的概念矩阵的运算矩阵的转置矩阵的逆高数微积分的基本知识什么是导数？偏导数方向导数梯度（Gradient）凸函数与凹函数概率论概率统计基础知识常见统计变量常见概率分布重要概率公式线性代数什么是线性代数？矩阵（Matrix）是一个按照长方阵列排列的复数或复试集合。其他太简单的我就不发了。矩阵特殊矩阵当矩阵的行数和列数相等时，则称为 ...

2020-03-09 10:28:39 401

原创小白从0学习推荐系统 ---01 推荐系统简介

文章目录推荐系统概述什么是推荐系统？推荐系统的目的推荐系统的基本思想推荐系统的数据分析推荐系统的分类推荐算法简介基于人口统计学的推荐算法基于内容的推荐算法基于协同过滤的推荐算法协同过滤（CF）推荐方法混合推荐推荐系统评测什么是好的推荐系统？推荐系统的实验方法推荐系统的评测指标推荐准确度的评测推荐系统概述什么是推荐系统？推荐系统是信息过载所采用的措施，面对海量的数据信息，从中快速推荐出符合用户...

2020-03-08 16:39:52 320

原创（三）、正确安装scrapy框架

(三). 正确安装scrapy框架1.scrapy框架介绍scrapy是python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点病虫页面中提取结构化的数据。scrapy用途广泛，常用于数据挖掘、监测和自动化测试。2.scrapy框架的安装（1）先安装Twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/我这里安装的版...

2019-04-21 11:22:53 167

原创 (二)单线程爬虫与多线程爬虫的效率对比

多线程爬虫与单线程爬虫的效率对比1.什么是进程？当一个程序正在运行时，它就是一个进程，进程包括运行中的程序和程序所使用到的内存和系统资源，而一个进程又包含多个线程。2.线程是什么？线程是程序中的一个执行流，每个线程都有自己专有的寄存器（栈指针、程序计数器等），但一个进程内的多个线程是共享代码区的，也就是同一个函数可以被多个线程所执行。3.多线程是什么?多线程一般指的是同一个程序的多个执...

2019-04-19 23:06:33 2677 6

原创（一）实现爬虫的简单思路

(一)写爬虫的一些套路1. 准备url1.1 准备start_url（1） url地址规律不明显，或总数不确定时李毅贴吧，点击下一页时，对应的url地址的pn会增加50，但不确定李毅吧的总数是多少，故需要准备start_urlstart_url = https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}使用 start_url.fo...

2019-04-14 13:54:48 1031

chanweiliang7439的博客