自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 使用pyinstaller打包py文件遇到的问题

使用pyinstaller打包.py文件 pyinstaller -F summary.py生成exe报错这个问题出现的原因是,有些模块是隐藏导入的,但是pyinstaller打包时并未指定,所以执行时找不到此模块解决方法是在打包语句后加上pyinstaller -F G:\workspace\summary\summary.py --hidden-impor...

2018-11-08 09:59:00 306

转载 pandas函数

方法名函数功能sum()列的和main()算数平均数var()方差std()标准差corr()皮尔逊相关系数cov()协方差矩阵skew()...

2018-10-30 10:51:00 191

转载 实战应用--基于物品的协同过滤算法itemCF

要求根据数据库中历史招投标数据作潜在投标人预测数据库数据类似于 投标(商品)--供应商名称(用户)根据数据特性选择基于物品的协同过滤算法itemCFitemCF算法核心只有两个步骤:1、使用公式求出两件商品之间的相似度:商品A,B相似度=同时关注A和B的人数/根号下关注A的人数*关注B的人数2.用户M对商品A的兴趣度=将 M关注的商品集合 与 商品A相似度前K项商...

2018-09-28 15:46:00 291

转载 Hadoop--mapreduce知识点总结

并行计算框架(MapReduce):适用于大数据量处理的分布式框架,是为离线数据分析而设计,利用数据的并行性进行分布运算,而后汇总结果的计算框架。将任务拆分、分布、汇总,开发人员只需要实现业务逻辑;分布任务自动失败重试,单个任务失败不会造成整个任务退出;和HDFS整合,使计算移到数据所在的节点运行角色的划分1)hadoop1.xHadoop角度:Master(主结点)...

2018-09-14 17:34:00 341

转载 HDFS知识点总结

NameNodeNamenode 上保存着 HDFS 的名字空间。对于任何对文件系统元数据产生修改的操作, Namenode 都会使用一种称为 EditLog 的事务日志记录下来。例如,在 HDFS 中创建一个文件, Namenode 就会在 Editlog 中插入一条记录来表示;同样地,修改文件的副本系数也将往 Editlog 插入一条记录。 Namenode 在本地操作系统的文件...

2018-09-14 17:33:00 195

转载 学习随笔 --python连接oracle数据库

#coding=utf-8import cx_Oracle #引用模块cx_Oracleimport osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'#编码问题conn=cx_Oracle.connect('Xho', 'sy...

2018-09-05 14:53:00 117

转载 学习随笔 --python实现熵权法

一、熵权法介绍熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的...

2018-09-05 14:50:00 2626

转载 学习随笔 --SparkStreaming WordCount Python实现

# -*- coding:utf-8 -*-from pyspark import SparkContextfrom pyspark.streaming import StreamingContext# StreamingContext 流功能的主要入口点# 创建一个具有两个执行线程的本地StreamingContext,批处理间隔为1秒#SparkStrea...

2018-08-29 17:30:00 240

转载 学习随笔 --SparkStreaming WordCount Java实现

Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和window。最后,处理后的数据可以推送到文件系统,数据库和实时仪表板在内部,它的工作原理如下。Sp...

2018-08-28 17:12:00 262

转载 学习随笔--JavaSparkJDBC操作Oracle

package stuSpark.com;import java.io.IOException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.List;import java.util.Map;import o...

2018-08-27 16:11:00 360

转载 学习随笔 pyspark JDBC 操作oracle数据库

# -*- coding:utf-8 -*-from pyspark import SparkContext, SparkConffrom pyspark.sql import SQLContextimport numpy as npappName = "jhl_spark_1" # 你的应用程序名称master = "local" # 设置单机c...

2018-08-27 15:59:00 730

转载 学习随笔--pyspark RDD常用操作

# -*- coding:utf-8 -*-from pyspark import SparkContext, SparkConffrom pyspark.streaming import StreamingContextimport mathappName = "jhl_spark_1" # 你的应用程序名称master = "local" # 设置单机...

2018-08-27 15:55:00 169

转载 学习随笔--Spark java开发入门

1 package stuSpark.com; 2 3 import scala.Tuple2; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java....

2018-08-23 11:44:00 161

转载 学习随笔--flask框架基本搭建

一、简介Flask是一个基于Python的web框架,它的设计目的是提供Web开发所需的最小功能子集。Flask没有绑定诸如数据库查询或者表单处理等功能库,以及它们所组成的整个生态系统。它倾向于对这些功能的实现方式不做任何限定安装 Flask 最便捷的方式是使用虚拟环境。虚拟环境是 Python 解释器的一个私有副本,在这个环境中你可以安装私有包,而且不会影响系统中安装...

2018-08-20 08:40:00 123

转载 学习随笔--scrapy爬虫简单实例

一、运行F:\Anaconda\Scripts\scrapy startproject scrapy_test生成scrapy项目的默认结构其中:crapy.cfg: 项目的配置文件。scrapy_test/: 该项目的python模块。之后您将在此加入代码。scrapy_test/items.py: 项目中的item文件。scrapy_test/pipeline...

2018-08-15 15:59:00 128

转载 学习随笔-python动态爬取空气质量网数据的实现

想爬取https://www.aqistudy.cn/空气质量网上的河北省空气历史数据,之前使用python写过基于scrapy的爬虫,想故技重施发现爬取不到想要的数据,仔细看过网页源代码后发现表格中的数据是动态加载的,使用开发者工具想要查看传输的数据结果发现数据被加密了,百度过解决办法后决定选择selenium实现动态的数据爬取一、什么是selenium?...

2018-08-14 15:49:00 707

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除