fxflyflyfly-CSDN博客

原创 Linux 环境配置文件的差异

Linux 的环境配置文件主要可以分为两种profile 和 bashrc 文件，profile 文件又分为："/etc/profile"，"~/.bash_profile"；bashrc 文件则又分为 “/etc/bashrc”，和 “~/.bashrc” 文件。/etc/profile 和 /etc/bashrc 这种在 /etc 目录下的配置则都属于全局配置，～/ 则属于用户级别的。首先是执行顺序的区别，profile 文件最先执行，bashrc 最后执行，完整顺序是 /etc/profile -

2021-01-04 15:25:30 396

原创 Pyecharts v0.5.x和v1.0.x的区别

版本v0.5.xv1.0.x支持python版本python2.7， python3.5-python3.6+状态官方不在维护维护ing差异主题地图插件废除插件，支持JupyterLab使用差异v5.0.xfrom pyecharts import Barattr = ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]v1 = [5, 20, 36, 10, 75, 90]v2 = [10, 25, 8, 60, ...

2020-12-24 14:19:07 470

原创基于AI的超分辨技术在RTC领域的技术难点与挑战

非常好的博客，讲述的很清楚

2020-12-18 16:53:11 391 1

转载【hbase】解决海量图片存储

随着互联网、云计算及大数据等信息技术的发展，越来越多的应用依赖于对海量数据的存储和处理，如智能监控、电子商务、地理信息等，这些应用都需要对海量图片的存储和检索。由于图片大多是小文件(80%大小在数MB以内)，以GFS、HDFS为代表的适用于流式访问大文件的分布式存储系统，若直接用来存储图片，由于元数据膨胀，在扩展性和性能方面均存在严重问题。为了解决HDFS在小文件存储方面的问题，通常的做法是先将很多小文件合并成一个大文件再保存到HDFS，同时为这些小文件建立索引，以便进行快速存取。典型技术包括Hadoop

2020-11-26 15:21:03 992

原创 Java内存管理--垃圾收集器和内存分配策略

概述垃圾收集器需要判断三件事情：哪些内存需要回收；什么时候回收；如何回收。各区域概述　　程序计数器，虚拟机栈，本地方法栈三个曲月随线程而生，随线程而灭，其中内存的大小基本上在类结构确认时就已知，内存分配和回收具有确定性，不需要过多考虑　　Java堆和方法去具有很显著的不确定性判断对象是否存活1.应用计数法:在对象中添加一个引用器，每当一个地方引用他时，计数器加一，引用失效时，计数器减一。　　占用了一定的内存空间，但原理简单，判断效率高，python语言使用方式　　但这种方法需要考

2020-09-27 14:58:29 190

原创 java内存管理--内存区域和内存溢出

概述Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域有各自的用途，以及创建和销毁的时间，有的区域随着虚拟机进程的启动而一直存在，有些区域则是依赖用户线程的启动和结束而建立和销毁。根据《Java虚拟机规范》的规定，Java虚拟机所管理的内存将会包括以下几个运行时数据区域，如图所示。运行时数据区程序计数器一个较小的内存空间当前线程所执行的字节码的行号指示器线程私有Java虚拟机栈线程私有，生命周期与线程相同存储局部变量表，操作数栈，动态连接，方

2020-09-22 16:28:31 163

原创【keras】0.2 TensorBoard报错汇总及总结

1.AttributeError: ‘Sequential’ object has no attribute '_get_distribution_strategy使用tf.keras.callbacks.TensorBoard(log_dir=output_model_file) 代替keras.callbacks.TensorBoard(log_dir=output_model_file)同时将所有 import keras 改为 import tensorflow.keras2.Profiler

2020-05-25 13:58:22 406

原创【keras】0.1keras.datasets常用数据集，默认下载地址与修改

一.简介keras包含7中常见数据，介绍如下数据集名称主要用途CIFAR10小图像分类数据集（10标签）CIFAR100小图像分类数据集（100标签）IMDB电影评论情感分类数据集（二分类）REUTERS路透社新闻主题分类(多分类)MNIST手写字符数据集Fashion-MNIST时尚物品数据集（多分类）Boston房价回归数据集（回归）二.使用from keras.datasets import imdb(x_train

2020-05-22 17:15:09 1494

原创【Tornado】3.poemmaker

import os.pathimport tornado.httpserverimport tornado.ioloopimport tornado.optionsimport tornado.webfrom tornado.options import define, optionsdefine("port", default=8000, help="run on the gi...

2020-01-17 15:00:32 180

原创【Tornado】2.字符串服务

import textwrapimport tornado.httpserverimport tornado.ioloopimport tornado.optionsimport tornado.webfrom tornado.options import define, optionsdefine("port", default=8000, help="run on the gi...

2020-01-17 14:58:11 216

原创【Tornado】1.HelloTornada

Tornado快速入门，代码详细注释import tornado.httpserverimport tornado.ioloopimport tornado.optionsimport tornado.web# tornado.options模块用来从命令行读取设置from tornado.options import define, optionsdefine("port", ...

2020-01-17 14:56:32 357

原创【机器学习】6.贝叶斯分类器

数学基础贝叶斯决策论（概率框架下实施决策的基础方法）假设有N中可能的类别标记，即y={c1,c2,…,cn},λij\mathop \lambda_{ij}λij是将一个真是标记为cj的样本误分类为ci所产生的损失，基于后验概率P（ci|x）可获得将样本x的分类为ci所产生的期望损失，即在样本x上的条件风险。R(ci∣x)=∑j=1NλijP(cj∣x)R(c_i|x)=\sum_{j=1...

2020-01-17 09:00:16 288

原创【机器学习】贝叶斯公式： P(B|A)=P(B)P(A|B)/P(A)

贝叶斯公式： P(B|A)=P(B)P(A|B)/P(A)P(AB)：AB同时发生的概率P(A|B): 在B发生的条件下，A发生的概率一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状　　职业　　疾病打喷嚏　护士　　感冒打喷嚏　农夫　　　过敏头痛　　 ...

2020-01-17 08:59:50 10234 3

原创【机器学习】5.支持向量机

文章目录间隔与支持向量对偶问题核函数软间隔和正则化间隔与支持向量给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)\mathop (x_1,y_1),(x_2,y_2),...,(x_m,y_m)(x1,y1),(x2,y2),...,(xm,ym)},yi∈[−1,+1]\mathop y_i\in{[-1,+1]}yi∈[−1,+1]训练的基本思想就是基于...

2020-01-17 08:59:16 218

原创【机器学习】4.神经网络

文章目录神经元模型感知机与多层网络误差逆传播算法（BP神经网络）神经网络是由具有适应性的简单单元组成的广泛互联并行的网络，它的组织能模拟生物神经系统对真是世界物体所做出的交互反应。神经元模型神经元模型接收n个来自其他神经元传递的输出信号，这些输入信号通过带权重的连接进行传递，神经元接受的总输入值将于神经元的阈值进行比较，然后通过激活函数处理，产生神经元的输出。理想激活函数sgn(x)={...

2019-12-27 09:36:48 291

转载 ConcurrentHashMap实现原理及源码分析

ConcurrentHashMap是Java并发包中提供的一个线程安全且高效的HashMap实现，ConcurrentHashMap在并发编程的场景中使用频率非常之高，本文就来分析下ConcurrentHashMap的实现原理，并对其实现原理进行分析（JDK1.7).ConcurrentHashMap实现原理众所周知，哈希表是中非常高效，复杂度为O(1)的数据结构，在Java开发中，我们最常见...

2019-12-20 11:48:29 194

转载 hashmap环形链表

导读：经过前面的博客总结，可以知道的是，HashMap是有一个一维数组和一个链表组成，从而得知，在解决冲突问题时，hashmap选择的是链地址法。为什么HashMap会用一个数组这链表组成，当时给出的答案是从那几种解决冲突的算法中推论的，这里给出一个正面的理由：1，为什么用了一维数组：数组存储区间是连续的，占用内存严重，故空间复杂的很大。但数组的二分查找时间复杂度小，为O(1)；数组的特点是：寻...

2019-12-20 11:47:35 876

原创【机器学习】3.决策树

文章目录基本流程划分选择信息增益增益率基尼指数剪枝处理连续和缺值连续值处理基本流程输入：训练集 D = {(x1,y1),(x2,y2),…,(xm ,ym)} 属性集A={a1,a2 ,…,ad}过程：函数TreeGenerate(D,A) 1. 生成结点 node； 2. if D中的样本全属于同一个类别C，then： 3. 将node作为C类叶节点，retu...

2019-12-16 16:53:57 404

原创【spark】datafram操作

链接：https://blog.csdn.net/dabokele/article/details/52802150作者写的很好很全面

2019-12-13 15:15:36 177

原创【spark】7.集群上运行以及配置

文章目录spark运行架构驱动器节点（driver）执行器节点（executor）使用spark-submit部署应用在yarn上运行sparkspark运行架构首先在分布式环境下，spark集群采用的主/从结构，即在一个集群中有一个节点负责中央协调，协调个分布式工作节点，这个节点被称为驱动器节点（Driver），与之对应的工作节点被称为驱动器节点（executor）spark应用通过一个...

2019-12-13 15:13:24 301

原创【spark】连接habse数据库

1.启动hadoop,hbasestart-all.shstart-hbase.sh# 确认启动成功jps应该会看到下面这些进程2375 SecondaryNameNode2169 DataNode2667 NodeManager2972 Jps2045 NameNode2541 ResourceManager2.创建hbase测试库hbase shellcrea...

2019-12-11 16:37:27 325

原创【爬虫】6.练习(爬虫技术网站和起点中文网)

下面爬取http://books.toscrape.com网站中的书籍信息。其中每一本书的信息包括：书名价格评价等级产品编码库存量评价数量代码如下：import scrapyfrom scrapy.linkextractors import LinkExtractorfrom ..items import BookItemclass BooksSpider(scra...

2019-12-02 16:27:28 432

原创【爬虫】5.Scrapy数据封装，处理，导出等等

文章目录数据封装数据处理实现配置more example过滤重复数据数据存储到mongodb使用LinkExtractor提取链接SelectorLinkExtractor描述规则数据导出创建一个Scrapy项目会在项目目录下自动创建多个.py文件，他们各自承担不同的作用。数据封装对抓取的零散数据如何维护，在之间的例子中我们使用了python的dict。 yield...

2019-11-21 17:01:24 632

原创【爬虫】4.Scrapy Selector提取数据

文章目录Selector对象创建对象选取数据提取数据Response内置SelectorSelector对象从页面中提取数据的核心技术是http文本解析，在python中常用的方式有两种BeautifulSoupBeautifulSoup是非常流行的HTTP解析库，API简洁易用，但解析速度较慢。lxmllxml是一套由C语言编写的xml解析库（libxml2），解析速度更快，API...

2019-11-21 15:05:10 689

原创【爬虫】BeautifulSoup

暂无

2019-11-21 09:25:41 208

原创【爬虫】3.Scrapy框架以及Request/Response

文章目录scrapy框架Resquest/Response对象scrapy框架组件描述类型Scrapy Engine引擎，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等内部组件Scheduler调度器:，它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要...

2019-11-21 08:43:20 575 1

原创【爬虫】2.scrapy简介&示例

文章目录简介使用需求创建项目分析界面实现Spider简介Scrapy是一个使用Python语言（基于Twisted框架）编写的开源网络爬虫框架，目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃，并且是跨平台的。在Linux、MaxOS以及Windows平台都可以使用。安装验证：pip install scrapyimport scrapyscra...

2019-11-20 09:26:04 443

原创【爬虫】1.相关库

文章目录开发环境请求库requestsseleniumaiohttp 的安装解析库lxmlBeautiful Souppyquerytesserocrweb库FlaskTornadoAPP抓取库CharlesmitmproxyAppium爬虫框架pyspider开发环境网络爬虫可以简单分为几个步骤：抓取界面，分析网页，存储数据请求库requests安装：pip install reque...

2019-11-19 16:51:46 228

转载【spark】Spark性能调优：shuffle调优

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整...

2019-11-19 15:43:53 241

转载【spark】Spark性能调优：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计...

2019-11-19 15:42:08 230

转载【spark】Spark性能优化：开发调优篇

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因...

2019-11-19 15:40:37 358

转载【spark】Spark性能优化：资源调优篇

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总...

2019-11-19 15:38:07 253

原创【机器学习】2.线性模型

文章目录基本形式线性回归对数几率回归（分类任务）线性判别分析（Fisher判别分类）：LDA 用于数据降维基本形式给定有d个属性描述的示例x=(x1,x2,⋯ ,xd)\mathop x = (x_1,x_2,\cdots,x_d)x=(x1,x2,⋯,xd)通过属性的线性组合来进行预测的函数f(x)=w1x1+w2x2+⋯+wdxd+b f(x)=w_1x_1+w_2x_2+\cdo...

2019-11-19 10:18:57 409

原创【机器学习】1.绪论（模型评估）

文章目录基本术语模型评估与选择经验误差和过拟合评估方法留出法交叉验证法/k折交叉验证法自助法性能度量回归任务分类任务错误率和精度查准率、查全率和F1ROC与AUC代价敏感错误率和代价曲线比较检验假设检验交叉验证T检验mcNemar检验Firedman与Nemneyi检验方差和偏差基本术语eg：（色泽=青绿，根蒂=卷缩），（色泽=乌黑，根蒂=稍卷）每一个括号内是一条数据，是关于一个事务或对象...

2019-11-18 11:10:15 402

原创【spark】6.编程进阶

文章目录累加器广播变量累加器提供了将工作节点中的值聚合到启动器程序中的简单语法。常见用途是调试时对作业执行过程中的事件进行计数。# 例如累加空行file = sc.textFile(inputFile)# 创建累加器并初始化为0blankLines = sc.accumulator(0)def extractCallSigns(line): global blankLines i...

2019-11-15 10:21:16 437 1

原创【spark】5.数据读取存储

文章目录分类文件格式文本文件JSON逗号分隔值与制表符分隔值csvSequenceFile对象文件Hadoop输入输出格式Spark SQLApache HiveJSON数据库java数据库hbase分类文件格式与文件系统：本地文件和分布式文件系统（NFS，HDFS等）spark SQL中的结构化数据：json和apache hive在内的结构化数据源数据库与键值存储文件格式文本文...

2019-11-14 16:34:11 260

原创【spark】4.键值对操作

文章目录创建PairRDDPairRDD转化操作聚合操作reducceByKey()foldByKey()combineByKey()并行度调优数据分组连接数据排序行动操作数据分区键值对RDD是Spark中许多操作所需要的常见数据类型，被称为pairRDD，提供了并行操作各个键或者跨界点重新进行数据分组的操作接口。创建PairRDD1.使用map()函数将普通RDD转换为PairRDD。l...

2019-11-14 15:32:11 509

原创【tensorflow】1.安装测试

win10 安装方式pip install tensorflow提示错误tensorboard 1.14.0 has requirement setuptools>=41.0.0, but you'll have setuptools 39.0.1 which is in原因 setuptools 版本太低，解决办法更新 setuptoolspip install --upg...

2019-11-07 11:42:41 553

原创 hadoop遇到的一些问题

hadoop之深坑：第一：hadoop长时间运行之后可能会出现stop-all.sh命令无效的情况，具体表现为hadoop各种进程关闭不掉。主要原因为hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtrac...

2019-11-06 15:56:54 370

原创【阿里云】2.1.大数据计算服务-基础知识

文章目录基础知识maxcomputer简介特点优势主要功能应用场景maxcomputer架构架构图客户端接入层逻辑层计算层maxcompute基本概念maxcomputer使用常见操作客户端安装总结基础知识maxcomputer简介由阿里云自主研发，提供针对PB/TB级数据，实时性要求不高的分布式处理能力，应用于数据分析、挖掘、商业智能等领域。特点分布式：分布式集群架构，跨集群技术突破...

2019-11-06 15:25:53 1454

电影名称以及演员数据

风格迁移模型实例

linux rpm | grep

spark on yarn 资源调度问题