Big-Dad-CSDN博客

原创文本预处理一般化流程

文本预处理一般包括以下几个流程：分词（主要是中文分词，英文分词较简单）去除停用词（中英文停用词表）词干提取、词性转换（针对英文，英文还有大小写转换的问题）词性标注文本向量化（词袋模型、TF-IDF、分布式词向量表示）以下是python实现的文本预处理的主要流程import numpy as npimport nltkimport jiebafrom nltk.stem.porter import PorterStemmerfrom nltk.stem.lancaster im

2020-09-22 17:16:00 2950

原创 Win10 Anaconda安装tensorflow-gpu过程、问题及pycharm配置

1. CUDA查看自己NVIDIA驱动版本（1）打开NVIDIA控制面板（鼠标右键就会有），点左下角系统信息，点击显示就会有驱动程序版本，点击组件就会有NVIDIA CUDA的版本。（2）可通过CUDA Toolkit and Compatible Driver Versions核对自己需要下载的CUDA Toolkit版本。下载安装CUDA ToolkitCUDA Toolkit下载...

2020-04-30 22:27:21 347

原创计算机体系结构---存储系统3

1. 存储系统性能量化1.1 存储系统层次结构CPU → M1 → M2 ······ Mn访问时间T： T1 < T2 < ······ Tn容量S：S1 < S2 < ······ Sn平均每位价格C：C1 < C2 < ······ Cn整个系统的平均访问时间接近M1的访问时间，容量和平均每位价格接近Mn...

2020-04-25 21:25:33 2991

原创计算机体系结构---流水线2

1. 基本概念1.1 基本概念流水线的段（级）：流水线中的每个子过程及其功能部件称为流水线的级或段，段与段相互连接形成流水线。流水线的瓶颈：流水线中执行时间最长的段。实施流水线技术的两个基本步骤：（1）把一个重复的过程分解为若干个子过程，每个子过程由专门的功能部件来实现。（2）多个任务在时间上错开，依次通过各功能段，这样，每个子过程就可以与其它的子过程并行进行。流水线表示方法：时...

2020-04-24 17:20:16 2316

原创计算机体系结构---指令系统1

1. 基本概念与分类1.1 概念指令系统(Instruction Set Architecture, ISA)是一台计算机能够直接识别并执行的机器指令的集合。ISA是软、硬件的分界面与接口：定义了软、硬件交互的协约；提供了一种软件告诉硬件该执行什么操作的机制。1.2 分类CISC、RISC计算机系统结构可根据ISA的不同进行分类，x86指令系统、MIPS指令系统等。但是使用同一指令系...

2020-04-20 20:48:12 1031

原创 PTA 寻找大富翁（归并排序）

1. 问题背景胡润研究院的调查显示，截至2017年底，中国个人资产超过1亿元的高净值人群达15万人。假设给出N个人的个人资产值，请快速找出资产排前M位的大富翁。2. 输入格式:输入首先给出两个正整数N（≤10^6 ）和M（≤10），其中N为总人数，M为需要找出的大富翁数；接下来一行给出N个人的个人资产值，以百万元为单位，为不超过长整型范围的整数。数字间以空格分隔。3. 输出格式:在...

2020-04-18 21:16:41 2044

原创计算机体系结构---简单概念0

1. 计算机系统结构定义1.1 经典定义computer architecture is a computer programmer see attribute, namely the conceptual structure and functional characteristics. （Amdahl,1964）计算机体系结构是机器级语言程序员看到的属性，即概念结构和功能特征。1....

2020-04-18 18:59:59 819

原创 PAT 名人堂与代金券（结构体多条件排序）

1. 题目回顾1.1 题目背景对于在中国大学MOOC（http://www.icourse163.org/ ）学习“数据结构”课程的学生，想要获得一张合格证书，总评成绩必须达到 60 分及以上，并且有另加福利：总评分在 [G, 100] 区间内者，可以得到 50 元 PAT 代金券；在 [60, G) 区间内者，可以得到 20 元PAT代金券。全国考点通用，一年有效。同时任课老师还会把总评成绩...

2020-04-18 15:27:22 595

原创 MathType续命

删除以下路径中的注册表（非默认）HKEY_CURRENT_USER\Software\Install Options

2020-04-03 18:55:56 228

原创 NLTK-chapter1-Language Processing and Python

书籍地址：http://www.nltk.org/book/1. Computing with Language: Texts and Words1.1 入门准备Anaconda版本的python自带nltk，但是没有样例数据，需要下载：import nltknltk.download()但是由于网络问题，会遇到下载失败或速度慢的问题。解决方法是下载离线包。然后需要进行以下步骤：...

2019-12-19 16:03:55 179

原创 Ubuntu安装R和Rstudio，R package devtools

R1.添加密钥sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E298A3A825C0D65DFD57CBB651716619E084DAB92. 添加R源查看版本代号 codename lsb_release -a，添加对应的源sudo add-apt-repository 'deb https://cloud...

2019-11-20 13:15:32 1089

原创 python pyinstaller生成exe

python pyinstaller生成exe1.pyinstallerpip安装即可pip install pyinstaller参数：-F 指定打包后只生成一个exe格式的文件-D –onedir 创建一个目录，包含exe文件，但会依赖很多文件（默认选项）-c –console, –nowindowed 使用控制台，无界面(默认)-w –windowed, –noconsol...

2019-01-07 14:26:51 492

原创 Scala安装

下载地址 https://www.scala-lang.org/download/all.html若官网无法下载，将以下地址中的版本号改成自己所需要的即可http://downloads.typesafe.com/scala/2.11.0/scala-2.11.0.msiScala-IDE下载 http://scala-ide.org/download/sdk.html1.windows下...

2018-10-15 21:18:05 207

原创 Zookeeper + Hbase安装配置

Zookeeper下载地址 http://apache.fayea.com/zookeeper/Habase下载地址 http://archive.apache.org/dist/hbase/一、Zookeeper安装配置集群上部署Zookeeper最好使用奇数台机器，这样如果有5台机器，只要3台正常工作则服务将正常。在目前的实际生产环境中，一个Hadoop集群最多有三台节点做备用mast...

2018-10-14 15:41:34 264

原创 Hive安装

1.先装好数据库https://blog.csdn.net/qq_40759271/article/details/83031225并新建一个hive数据库 &gt;create database hive;2.安装hive下载地址 http://mirrors.cnnic.cn/apache/hive/解压 tar -zxvf apache-hive-2.3.3-bin.tar.gz...

2018-10-13 09:34:21 176

原创 Centos7 mysql安装

参考 https://www.cnblogs.com/starof/p/4680083.html1.先安装wget服务$yum -y install wget2.安装mysql$wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm$rpm -ivh mysql-community-release-el...

2018-10-12 18:27:07 185

原创 Hadoop伪分布式环境搭建

一.安装虚拟机VMware12、Centos7安装，网上教程有很多，可参考https://blog.csdn.net/sinat_35866463/article/details/77934186网络模式我选择的是NAT二.hadoop环境准备1.准备网络配置VMware页面 → 编辑 → 虚拟网络编辑 → VMnet8选择NAT模式，不要勾选使用本地DHCP服务将IP地址分配给虚...

2018-10-10 22:03:25 374

原创 numpy

import numpy as npa =[ [1,2,3,4], [5,6,7,8] ]b = np.array(a)b.argmax() #7 (返回沿轴axis最大值的索引) numpy.argmax(a, axis=None, out=None) b.argmax(axis=0) #[1 1 1 1] axis=0为列b.argmax(axis=1) ...

2018-10-03 17:58:17 150

原创 windows Anaconda安装

参考：https://www.jianshu.com/p/169403f7e40c1.下载安装下载地址迅雷: https://repo.continuum.io/archive/Anaconda3-5.0.1-Windows-x86_64.exe运行exe，选择安装目录，安装即可系统环境变量配置：计算机——属性——高级系统设置——环境变量——path，然后将Anaconda安装目录以及子...

2018-09-30 10:19:42 206

原创 java web问题

1.由于mysql版本过高创建连接的时候会出现如下报告Establishing SSL connection without server's identity verification is not recommended.解决方法：在mysql连接上加上&useSSL=truejdbc:mysql:///:3366:test?useUnicode=true&...

2018-07-18 23:12:03 150

原创 Linux Java开发环境搭建

一、jdk安装配置1.下载jdk的tar.gz包 2.解压tar -zxvf jdk.tar.gz3.配置环境变量//编辑文件sudo vim /etc/profile//在文件末尾添加以下信息JAVA_HOME=/user/java/jdk1.8.0_171 //jdk解压目录export PATH=$JAVA_HOME/bin:$PATH exp...

2018-07-12 19:30:17 1493

原创 Servlet

1.GET请求如请求方式为GET方式，则可以在请求的URL地址后以?的形式带上交给服务器的数据，多个数据之间以&进行分隔。如： http://localhost:8080/W09_Servlet1/HelloServlet?name=zhangsan&age=12 GET方式的特点：在URL地址后附带的参数是有限制的，其数据容量不能超过1K2.POST请求 ...

2018-07-03 18:18:30 151

原创 MapReduce Join操作

Mapreduce连接1、reduce side join在reduce端进行表的连接，该方法的特点就是操作简单，缺点是map端shffule后传递给reduce端的数据量过大，极大的降低了性能连接方法：（1）map端读入输入数据，以连接键为Key，待连接的内容为value，但是value需要添加特别的标识，表示的内容为表的表示，即若value来自于表1，则标识位设置为1，若来

2018-01-30 18:54:29 435

原创 MapReduce应用☞关联操作

主要是使用hadoop集群完成数据相关性简单分析一、单表关联单表关联”要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘1.1实例给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——爷奶）表。输入：child parent Tom LucyTom

2018-01-30 18:22:20 522

原创 MapReduce进阶

一、Combiner1.1原因：在上述过程中，我们看到至少两个性能瓶颈：（1）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。网络带宽严重被占降低程序效率；（2）假设使用美国专利数据集中的国家一项来阐述

2018-01-28 20:46:04 633

原创 MapReduce应用

一、数据去重问题描述数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。问题分析根据reduce的过程特性,会自动根据key来计算输入的value集合把数据作为key输出给reduce,无论这个数据出现多少次，reduce最终结果中key只能输出一次。实现步骤实例中每个数据代表输入文件中的一行内容，map阶段采用Hadoop默认的作

2018-01-28 15:27:39 811

原创 MapReduce概述

1.了解MapReduce1.1简介Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集MapReduce的特点：软件框架并行处理可靠且容错大规模集群海量数据集MapReduce的思想就是“分而治之” （1）Ma

2018-01-27 19:10:10 430

原创 Hadoop文件系统及其java接口

一、FileSystemorg.apache.hadoop.fs.FileSystem是hadoop的抽象文件系统，为不同的数据访问提供了统一的接口，并提供了大量具体文件系统的实现，满足hadoop上各种数据访问需求如以下几个具体实现（原表格见《hadoop权威指南》）：二、Java接口文件系统的方法分为两类：一部分处理文件和目录；一部分读写文件数据。 hadoop抽

2018-01-27 13:49:17 719

原创 Hadoop IO操作

HadoopIO操作意义 Hadoop自带一套用于I/O的原子性的操作（不会被线程调度机制打断，一直到结束，中间不会有任何context switch）。特点是基于保障海量数据集的完整性和压缩性。 Hadoop提供了一些用于开发分布式系统的API（一些序列化操作+基于磁盘的底层数据结构）1.HDFS数据完整性用户希望储存和处理数据时，不会有任何损失或损坏。Hadoop提供两种

2018-01-27 13:17:12 593

原创 HDFS架构

HDFS架构HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

2018-01-24 19:30:32 319

原创大数据概念1

1.CAP, BASE1.CAP数据一致性(consistency)：数据一致更新，所有数据变动都是同步的，如果系统对一个写操作返回成功，那么之后的读请求都必须读到这个新数据；如果返回失败，那么所有读操作都不能读到这个数据，对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency

2018-01-23 21:14:13 448

原创大数据概论

1.大数据是什么，5V？大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点（IBM提出）： - Volume（大量） - Velocity（高速） - Variety（多样） - Value（低价值密度） -

2018-01-22 20:53:04 416

qq_40759271的博客