小吴今天运动了吗-CSDN博客

Hadoop：高可靠性：底层维护多个数据副本高扩展性：高效性（MapReduce）：高容错性：自动将失败的任务重新分配。一、HDFS架构NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。二、Yarn..

2021-08-25 10:33:26 88

原创 Java多线程（四）

一、Lock（锁）从JDK5.0开始提供，java.util.concurrent.locks.Lock接口是控制多个线程对共享资源进行访问的工具。锁提供了对共享资源的独占访问，每次只能由一个线程对Lock对象加锁，线程开始访问共享资源之前应先获得Lock对象。ReentrantLock类实现了Lock，它拥有与synchronized相同的并发性和内存意义，在实现线程安全的控制中，常用的是ReentranLock，可以显式加锁、释放锁。import java.util.concurrent.

2021-08-20 17:12:38 111

原创 Java多线程(三)

一、线程同步机制多个线程操作同一个资源。并发：同一个对象被多个线程同时操作处理线程问题时，多个线程访问同一个对象，并且某些线程还想修改这个对象，这时候就需要线程同步。线程同步就是一种等待机制。队列和锁：解决线程安全性锁机制：synchronized，默认锁的是this，加锁时要注意锁的对象会引起以下问题：一个线程持有锁会导致其他所有需要此锁的线程挂起在多线程竞争下，加锁释放锁会导致比较多的上下文切换和调度延时，引起性能问题；如果一个优先级高的线程等待一个优先级低的线程释放

2021-08-18 17:21:07 329

原创 Java多线程(二)

一、静态代理模式1. 代理对象和真实对象都要实现同一个接口2. 代理对象要代理真实角色，即代理对象接收真实目标角色作为一个属性。优势：代理对象可以做很多真实对象做不了的事情，真实对象专注做事情。静态代理就是线程实现的底部原理。二、lamda表达式优势：避免匿名内部类定义过多，实质属于函数式编程的概念。(params) -> expression[表达式](params) -> statement[语句](params) -> {statements}

2021-08-17 16:42:51 46

原创 Java多线程(一)

一、关于线程任务：多任务：是操作系统可以执行多个程序的能力。多线程：多线程是在程序内部实现“多任务”，线程是独立的执行路径。进程（Process）：进程是一个具有一定独立功能的程序在一个数据集上的一次动态执行的过程，是操作系统进行资源分配和调度的一个独立单位，是应用程序运行的载体。进程是一种抽象的概念，从来没有统一的标准定义。进程一般由程序，数据集合和进程控制块三部分组成。进程要完成的功能，是控制进程执行的指令集；数据集合是程序在执行时所需要的数据和工作区；程序控制块包含进程的描述信

2021-08-15 17:44:11 80

原创 Pytorch的数据操作

import torch'''************************ 代码参考来自：https://github.com/ShusenTang/Dive-into-DL-PyTorch/blob/master/docs/chapter02_prerequisite/2.2_tensor.md***********************'''## 创建tensorx = torch.empty(5,3)print(x)x = torch.rand(5,3)print(x).

2021-08-04 12:01:32 87

原创 Maven(二)

一、tomcat加载Maven项目在pom.xml中添加tomcat，在Maven的目标库中搜索tomcat，找到org.apache.tomcat.maven<dependency> <groupId>org.apache.tomcat.maven</groupId&gt

2021-08-03 11:21:16 48

原创 Maven(一)

一、Maven基础传统项目管理状态分析：jar包不统一，不兼容；工程升级过程中操作繁琐。1. 什么是Maven：本质是一个项目管理工具，将项目开发和管理过程抽象成一个项目对象模型（POM）用pom.xml配置项目信息。2. Maven的依赖管理，项目用到的东西可以作为资源相互调用。功能：项目构建、依赖管理、统一开发结构。二、下载和安装下载地址：https://maven.apache.org/下载安装包后解压到指定位置。配置MAVEN_HOME配置path.

2021-08-02 16:09:23 46

原创 Scrapy框架(三)

Spider的使用爬取百度文库

2021-08-02 15:07:44 193

原创 Scrapy框架（二）

Selector选择器基于lxml构建出来。1.使用直接导入模块，然后实例化使用。Selector支持css，re，xpath等解析方式from scrapy import Selectorcontent = "<html><head><title>My html</title><body><h3>Hello world!</h3></body></head></html&

2021-07-22 10:32:35 96

原创 Scrapy框架（一）

一、架构图是专门为python爬虫设计的框架。定制解析模块就能实现爬虫。Scrapy Engine：安排别的部分完成工作，进行调度，接收其他组件返回的成功与否的信号，然后向别的组件发送是否能进行工作的信号。itempipeline：在管道中定制数据的结构downloader：用来下载引擎发送过来的所有request请求，并将其获得的response交还给引擎，由引擎交给spider来执行。scheduler：接受引擎发送过来的request请求，并按照一定的方式进行整理排列，入队.

2021-07-22 09:51:21 120

原创代价函数和正则化

一、代价函数的惩罚项当模型过拟合时，要减少某个输入变量x对预测结果的影响，只需要保证其对应的参数θ足够小即可，这可以通过改动代价函数来实现。例如在这个代价函数中，要保证取最小值两个参数的值就需要接近0。这种方式就是给模型加入惩罚项，一般会对所有的参数进行这样的约束。一、线性回归的正则化1. Gradient descentRepeat{}2. 矩阵求解一般求解B是一个对角线上值为0，1，... ，1的n+1阶矩阵。对于不可...

2021-07-19 19:12:20 400

原创多元分类和过拟合

一、多元分类1. one-vs-all：选择得分最高的类别有几个类别建立几个分类器，单个分类器只识别一个类别。 classifierA classifierB classifierC classifierD positive 0.56 0.96 0.22 0.11 negtive 0.44 0.04 0.78 0.89 上面表格对应的样例的分类结果为class B。2. one-vs-one：设有n个类别

2021-07-19 16:17:27 465

原创分类决策界限

No1. 一般选择一个常数 a 作为分类界限。if , predict y = 1.if , predict y = 0.这种方法属于线性规划。No2. 当直线没办法对数据很好分类时(非线性决策边界)，选择高次幂的分类线。

2021-07-19 15:34:41 82

原创用Xpath爬猪八戒网

step1：用request模块获取网页源代码import requestskeyword = input("输入爬取的关键字:")url = r"https://xian.zbj.com/search/f/?type=new&kw=%s"%keywordresp = requests.get(url)step2：分析页面源代码中是否有对应数据step3: 用xpath进行解析from lxml import etreetree = etree.HTML(resp.t

2021-07-12 14:31:45 371

原创 Xpath解析

一、原理XPath是在xml中搜索内容的一门语言，html是xml语言的一种子集。xml的例子：<book> <id>1</id> <name>追风筝的人</name> <author> <nick>卡勒德·胡赛尼</nick> <nike>Khaled Hosseini</nick> </author&g

2021-07-02 18:40:53 265

原创 bs4解析

step1: 安装pip install bs4 -i +镜像step2：使用1. 获取页面源代码2. BeautifulSoup解析（成树结构），将页面源代码交给BeautifulSoup解析，将解析器设置为html.parser3. 使用find/find_all函数查找标签find(标签，属性=值)find_all(标签，属性=值)step3：代码实现import requestsfrom bs4 import BeautifulSoupdef spier()

2021-07-01 09:37:48 138

原创二、逻辑回归（分类）

一、原理线性回归中加入阈值设阈值为0.5则有Logistic Regression:sigmoid函数：loss：

2021-07-01 09:05:43 148

原创一、多元线性回归

一、原理公式：Hypothesis:这里:Parameters:Cost Function:使用的是均方差损失(MSE)梯度下降：用于最小化代价函数，一般用代价函数对求偏导获得。Gradient descent：Repeat{}即Repeat{}其中表示学习率...

2021-06-24 13:54:47 423

原创豆瓣电影Top250

一、网页分析内容属于fu'wu'qi

2021-06-20 18:01:06 127

原创 Re模块解析

一、Re正则表达式一种使用表达式的方式对字符串进行匹配的语法规则。抓取到的网页源代码实际上就是一个超长的zi'fu'ch

2021-06-20 17:29:27 107

原创爬虫(四)

豆瓣电影一、网页分析获取方式是get二、重新封装参数 url = "https://movie.douban.com/j/chart/top_list" ## get的url参数多时 param = { "type": "24", "interval_id": "100:90", "action": "", "start": 0, "limit": 20 } res

2021-05-12 16:42:48 58

原创爬虫学习(三)

百度翻译爬取 Post一、查看抓包工具network访问方式为post，使用form data发送查询数据，获取链接为https://fanyi.baidu.com/sug。二、代码 url = r'https://fanyi.baidu.com/sug' kword = input("输入查询单词") data = { "kw" : kword }## post请求发送的数据必须放在字典中 resp = requests.pos

2021-05-12 10:29:57 55

原创爬虫学习（二）

Requests模块安装：pip install requests镜像安装：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests一、代码：import requestsdef pracRequests(): url = r'https://www.sogou.com/web?query=许嵩' resp = requests.get(url) ## 获得响应 print(resp

2021-05-12 10:13:55 428 1

原创爬虫学习(一)

爬虫学习(一)爬虫：程序模拟浏览器，输入网址，从该网址中获取资源或内容。使用python库 urllib.request.urlopen一、Web请求全过程剖析1.服务器渲染：用户申请后，在服务器上将数据和html整合，统一返回浏览器。页面源代码中有数据。2.客户端（浏览器）渲染：用户申请后，返回html骨架，用脚本再次申请数据，获得返回后填入html骨架进行展示。页面源代码中没有数据。获取数据需要找到二次请求的url，一般用浏览器的抓包工具进行分析。二、HTTP..

2021-04-24 21:13:04 65

weixin_41628764的博客

原创 (一)操作系统接口

原创 Hadoop(入门)