阿坨-CSDN博客

原创基于Java的新闻全文搜索引擎的设计与实现

本文以学术研究为目的，针对新闻行业迫切需求和全文搜索引擎技术的优越性，设计并实现了一个针对新闻领域的全文搜索引擎。该搜索引擎通过Scrapy网络爬虫工具获取新闻页面，将新闻内容存储在分布式存储系统HBase中，并利用倒排索引及轮排索引等索引技术对新闻内容进行索引，实现了常用的新闻搜索功能，如短语查询、布尔查询、通配符查询等。同时为了获得更快的检索速度，该系统使用了B+树来构建索引树；为了提升用户浏览体验，引入了事件图谱可视化技术，帮助用户直观易懂地浏览相关新闻事件；

2023-08-06 20:07:08 2142 1

原创生命的空白

西西弗斯是人类的缩影，永远跳不出命运的轮回，但依然要努力前行，把每天的推石头变得有意义，用意义来超越日升日落、春夏秋冬、生老病死，用意义创造了辉煌悠久的历史，用意义去丈量万物的尺度。”人生本身没有意义，但在我们失去人生意义的同时，我们得来了选择如何生活的自由，因为，不存在一个所谓的权威，去要求我们必须达到某种目的。”这世间一切浩渺云烟，唯虚无永存，但人却可以在虚无与悲观之上追逐生命的意义，就仿佛是在虚无里开出自由的花，这是一种最本质的绽放，超越世间一切的盛开，这是人作为一个生命意识最根本最永恒的力量。

2023-05-05 23:58:23 295 1

原创《理想国》读书感悟

第一卷话题从年老谈到财富，引出了雪蒙拿的正义观：欠债还钱是正义，从而提出了“正义是什么”的探讨。辩论中正义定义的演变：实话实说欠债还债是正义（商人的视角）。报朋友以善，报敌人以恶是正义（城邦的视角，人和人的关系即是敌友）。报真正善良的朋友以善，报真正邪恶的敌人以恶是正义。苏格拉底反驳：德性约等于本质本性，而正义不会损害德性。正义是强者的利益（丛林的视角，眼里只有强弱）。苏格拉底反驳：强者会犯错，若强者制定的法制法规实际不符合强者的利益，那么人们遵守强者制定的法规是在行不义。斯拉雪麦格回

2023-05-05 23:56:11 962

原创物体识别基本原理及其Python实现

概述物体识别（Object recognition）是一个通用术语，描述一组相关的计算机视觉任务，涉及识别图像中的物体。图像分类涉及预测图像中一个对象的类别，对象定位是指识别图像一个或多个对象的位置，并在其周围绘制边框。物体识别将这两种任务结合起来，对图像中的一个或多个对象进行定位和分类，所以当人们提到物体检测或者目标检测时，其实指的是物体识别。基于区域的卷积神经网络 (R-CNN) 是一系列卷积神经网络模型，专为目标检测而设计。R-CNN 是一种两阶段检测算法。第一阶段识别图像中可能包含对象的区域子

2021-08-05 14:34:58 25104 8

原创 Python实现PhotoShop人脸液化变形效果

在PhotoShop中，我们经常利用液化工具的向前工具来对人脸进行形变处理，例如瘦脸、放大眼睛等常规P图操作。瘦脸与眼睛放大可以算作图像局部扭曲算法的一个应用，其参考文献可以追溯至1993年的一篇博士论文：Interactive Image Warping。这篇论文详细描述了算法原理，并提供了伪码实现。图像局部扭曲算法有三个：局部缩放（Local Scaling）算法、局部平移（Local Transition）算法和局部旋转（Local Rotation）算法。其中应用局部缩放算法可实现眼睛放大，局

2021-06-22 11:57:56 2596 1

原创软考小笔记

软件著作权自软件开发完成之日起产生。特洛伊木马是一种通过网络传播的病毒，分为客户端和服务端两部分，服务器端位于被感染的计算机，特洛伊木马服务器端运行后会试图建立网络连接，计算机感染特洛伊木马后的典型现象是有未知程序试图建立网络连接。...

2021-01-17 21:42:17 826 2

原创基于ALS的音乐分析及离线推荐系统的设计与实现报告

文章目录摘要数据说明相关技术介绍Sqoop概述Spark概述协同过滤推荐算法概述系统设计与实现数据分析热门推荐个性化推荐前台交互展示总结摘要在互联网时代，各类的音乐网站提供了成千上万的需求，满足了人们对于音乐的需求，让我们在通勤出行或者闲暇之余可以听到各种不同类型的音乐。而通过分析挖掘海量的历史音乐欣赏记录和用户数据，我们得以窥见消费者选择音乐背后的动机，并可以揭示特定人群的“音乐DNA”。这能够启发强大的营销战略，能够给音乐运营商带来极富价值的数据。而数字音乐的迅速发展造成了音乐歌曲的过剩，面对海量的

2021-01-14 20:19:33 2330 9

原创聊聊区块链的创新技术

区块链技术源于2008年一位署名为“中本聪”的学者发表的论文《比特币：一种点对点电子现金系统》。时至今日，“中本聪”的真实身份仍然无人知晓，但区块链的江湖一直有他的传说，由其奠基的区块链技术火爆全球。何为区块链，人们提到区块链会想到近年火爆的比特币，心里会不自觉地把区块链和比特币挂钩，但区块链并不等于比特币，比特币只是区块链技术应用的一个子集。区块链是一个分布式的共享账本和数据库，具有去中心化、不可篡改、全程留痕、可以追溯、集体维护、公开透明等特点。这些特点保证了区块链的“诚实”与“透明”，为区块链创造信

2020-12-18 03:20:49 2153 2

原创淘宝双11实时数据分析项目报告

文章目录环境部署项目主要架构具体步骤流计算步骤python连接kafkaspark-streaming集成kafka编写并运行spark-streaming程序(实时词频统计)编写并运行spark-streaming程序(累加词频统计)在kafka上查看数据统计结果批量计算步骤往hive中导入数据sqoop导出数据到mysql淘宝RFM用户划分Flask-SocketIO实时推送数据Echarts动态绘图环境部署相关环境部署的笔记如下：zookeeper和spark安装：在zookeeper上搭建

2020-12-16 20:36:02 6102 5

原创 python实现基于协同过滤算法的电影推荐

前言一般来说，协同过滤推荐算法分为三种类型。基于物品(item-based)的协同过滤基于用户(user-based)的协同过滤基于内容(content-based)的协同过滤本文基于相关的电影订阅数据对上述协同过滤推荐算法进行实现，每种算法都针对指定的第500位用户对其推荐5部电影相关电影数据可到个人百度云上进行下载，数据集包含了9000多位用户的563部电影的订阅信息（1表示订阅，0表示不订阅）链接：https://pan.baidu.com/s/1LZz58htPOq4F

2020-12-11 03:56:07 3980 4

原创简述Mapreduce的Shuffle过程

文章目录引子Map端的Shuffle过程分区数据排序数据归并文件Reduce端的Shuffle过程领取数据归并数据和文件引子虽然我们编写Mapreduce程序只需着眼于编写Map端的map函数和Reduce端的reduce函数，但Shuffle过程是Mapreduce工作流程的核心环节，理解Shuffle过程是我们理解Mapreduce工作流程的核心关键。Mapreduce的简要工作流程可看下图从图中我们可以看出Mapreduce的工作流程分为Map、Shuffle、和Reduce，其中Shuff

2020-11-18 03:07:01 6729

原创 python之ORM——SQLAlchemy使用

ORM先来了解什么是ORM，以及ORM用来解决什么问题？我们在开发web应用的过程中，不可避免地会涉及到CRUD操作，就需要用到数据库管理软件，例如mysql、oracle、Microsoft SQL Server等。如果应用程序需要操作数据（比如将用户注册信息永久存放起来），那么我们需要在应用程序中编写原生sql语句，然后使用pymysql模块远程操作mysql数据库但直接编写原生sql语句会存在两方面的问题，严重影响开发效率，如下sql语句的执行效率问题：应用开发程序员需要耗费一大部分精力去

2020-11-18 02:40:14 470 2

原创摩拜共享单车数据分析项目报告

文章目录摩拜共享单车数据分析项目报告项目背景数据探索数据挖掘数据分析时间维度空间维度用户维度摩拜共享单车数据分析项目报告项目背景随着智能手机的普及和手机用户的激增，共享单车作为城市交通系统的一个重要组成部分，以绿色环保、便捷高效、经济环保为特征蓬勃发展。共享单车企业通过在校园、公交站点、居民区、公共服务区等提供服务，完成交通行业最后一块“拼图”，与其他公共交通方式产生协同效应。共享单车有助于缓解城市短距离交通出行和“最后一公里”难题，但共享单车由于其运营特点，对企业在城市投放和调度单车的规划管理方面，

2020-09-29 21:23:39 13129 17

原创 kafka学习笔记

kafka安装环境要求：需要安装zookeeper、java1.7以上。下载kafka注意：到Kafka官网下载安装文件时，一定要选择和自己电脑上已经安装的scala版本号一致才可以。本笔记安装的scala版本号是2.11.16，所以，一定要选择Kafka版本号是2.11开头的。比如，到Kafka官网中，可以下载安装文件Kafka_2.11-2.2.1，前面的2.11就是支持的scala版本号，后面的2.2.1是Kafka自身的版本号。解压安装包sudo tar -zxvf kafka_2.11-

2020-09-29 20:09:13 713

原创戴尔服务器上装vmware esxi

近日老师让在一台戴尔服务器上捣腾一下vmware esxi，闲来无事记录一下捣腾的过程。制作u盘启动盘准备一个空白的U盘，容量4G以上，插入到电脑的USB插槽中下载vmware esxi的ISO镜像：可以到我百度网盘下载：https://pan.baidu.com/s/149vMu1F8NmNNlWi2AYZsxg ，提取码：t2ao下载UltraISO光盘映像刻录工具：https://cn.ultraiso.net/xiazai.html打开UltraISO，选择上方的打开——选择esxi IS

2020-08-31 19:04:06 3611

原创 MapReduce输出结果保存到MySQL

文章目录代码编写思路代码实现Map类输出数据表的javaBean类Reduce类Job类jar包运行前准备运行jar包代码编写思路以词频统计案例为例，说明如何把MapReduce的输出结果保存到MySQL中。Map任务基本不变，主要把实现聚焦在Reduce的输出上。Reduce任务的输出的key为相应的输出数据表的javaBean类实现，该类需要实现org.apache.hadoop.io.Writable的Writable接口和org.apache.hadoop.mapreduce.lib.db的DB

2020-08-31 17:39:53 1253

原创 JavaScript的原型对象和原型链

文章目录引子构造函数原型对象原型链继承引子有点意思的是，JavaScript的面向对象设计思想跟其他的面向对象语言（如Java、python）的设计思想有所不同。JavaScript 虽是面向对象的语言，但JavaScript不使用类，不创建类，也不会通过类来创建对象。所幸这样的局面在Es6出现之后得以改变（看来官方也觉得最初的JavaScript设计有点鸡肋）。而在Es6以前，我们不得不使用原型链来解决JavaScript中的有关面向对象的一系列问题：对象唯一性、抽象性、继承性、多态性。而原型链的最

2020-08-26 18:44:08 435

原创基于Spark的音乐专辑数据分析（scala）

前言本项目所使用的数据及其编写的代码，可戳 https://download.csdn.net/download/atuo200/12716083下载。本项目采用scala编写数据分析代码，若采用python编写数据分析代码，可参考基于Spark的音乐专辑数据分析展示。数据来源数据集albums.csv，包含了10万条音乐专辑的数据。主要字段说明如下：album_title：音乐专辑名称genre：专辑类型year_of_pub：专辑发行年份num_of_tracks：每张专辑中单曲数

2020-08-15 20:07:52 7018 7

原创 Linux无坑安装sbt

下载sbt下载：https://sbt-downloads.cdnedge.bluemix.net/releases/v1.3.0/sbt-1.3.0.zip下载完用rz工具把安装包上传到虚拟机，然后解压注意.zip后缀的压缩包用unzip命令解压sudo unzip -q sbt-1.3.0.zip设置国内仓库默认情况下，sbt使用的是国外的仓库地址，打包编译的时候慢的一匹（无法忍受），为了加快打包编译速度，建议更换仓库地址。mkdir ~/.sbtcd ~/.sbtvim repos

2020-08-05 17:45:32 3471 2

原创 mysql+redis实现排行榜

前言代码逻辑：把mysql中的玩家分数表的数据导到redis中，使用redis中的有序集合zset来实现数据递减排行并返回结果（排行榜）我们要明确用redis做排行榜的意义，如果在mysql中有一张游戏的玩家分数表，那么我们用简单的sql语句就能实现数据排行的功能，为什么还要用redis做数据排行？首先mysql等关系型数据库做大数据量的数据查询排序是有性能瓶颈的，而redis是基于内存的键值数据库，其查询、排序的运算速度要比mysql等关系型数据库要快得多；并且redis中内置了一个有序集合（zset

2020-07-12 13:08:02 1766

原创 nginx基础入门

文章目录nginx简介安装nginx依赖的包安装nginx安装tomcatnginx应用方向nginx反向代理nginx负载均衡nginx动静分离nginx简介nginx简单而言，它是处理高并发连接的一个http和反向代理的web服务器，管理tomcat集群，把很多指向同一个域名的请求解析成不同的ip地址，分发到不同的tomcat服务器去执行。安装nginx依赖的包gcc安装nginx需要先将官网下载的源码进行编译，由于nginx是C语言编写的，编译依赖gcc环境，如果没有gcc环境，需要安装

2020-07-08 01:10:35 309 1

原创用python实现树，字典树，堆，图，并查集

文章目录前言树字典树堆图图的邻接表实现图的邻接矩阵实现图的深度优先遍历图的广度优先遍历并查集前言本文内容讲解几种常见的非线性数据结构(树，字典树，堆，图，并查集)的概念，功能及其实现。树树 (tree) 是一种非常高效的非线性存储结构。树，自然中的树有根，有叶子，对应在数据结构中的树就是根节点、叶子节点。同一层的节点叫兄弟节点，邻近不同层的叫父子节点。树又分门别类，分为二叉树、满二叉树和完全二叉树二叉树：每个节点都至多有二个子节点的树；满二叉树：在二叉树的基础上，除了叶子节点外，每个节点都有左

2020-07-07 01:09:52 582

原创 Mycat实现全局序列的三种方式

文章目录Mycat全局序列本地文件方式数据库方式本地时间戳方式总结Mycat全局序列在实现分库分表的情况下，数据库自增主键已无法保证自增主键的全局唯一。为此，Mycat 提供了全局sequence（序列号），并且提供了包含本地配置和数据库配置等多种实现方式，常见的有以下三种：本地文件方式、数据库方式和本地时间戳方式。注意：Mycat全局序列是在Mycat水平分表基础上搭建起来的，关于Mycat的水平分表，可戳：Mycat实现水平分表及读写分离本地文件方式原理：此方式Mycat将sequence（序

2020-07-06 01:23:23 1417 2

原创 Mycat实现水平分表及读写分离

文章目录Mycat出现缘由数据切分Mycat简介Mycat的下载及安装Mycat使用例子在CentOS6.4里安装MySQL设置MySQL允许远程连接设置schema.xml设置server.xml设置rule.xml在conf目录下创建student_text.txt在Master节点的MySQL中创建相应的数据库db1、db3启动Mycat，连接Mycat往Mycat插入数据查看数据是否分片成功Mycat出现缘由随着互联网的发展，数据的量级也是呈指数的增长。数据量的增大导致对数据的各种操作也是愈加的

2020-06-29 15:27:14 1376 1

原创用python实现栈、单链表、双链表、队列

前言推荐个网站，学习数据结构时可以到 visualgo这个网站，感受认识操作一些数据结构的整个动态执行过程，当我们在用代码实现其数据结构的时候，它能给我们带来一些code的思路栈栈（stack），它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。栈允许进行插入和删除操作的一端称为栈顶(top)，另一端为栈底(bottom)；栈底固定，而栈顶浮动；栈中元素个数为零时称为空栈。插入一般称为进栈（PUSH），删除则称为退栈（POP）。python代码实现class Stack(o

2020-06-26 02:42:57 810

原创 redis笔记

文章目录键值数据库介绍redis介绍redis安装redis数据类型Jedisredis持久化RDBAOFredis主从复制全量同步增量同步键值数据库介绍键值数据库表中有特定的key和对应的value存储数据，key用来定位value，即检索和存储具体的value，value对数据库而言是透明不可见的，不能对value进行索引和查询，只能通过key来查询。value可以存储任何类型的数据，包括整型、字符型、数组、对象等。在存在大量写操作的情况下，键值数据库可以比关系型数据库取得明显更好的性能。键值数据

2020-06-22 19:53:34 370

原创 redis配置最简单的主从复制集群

文章redis的主从复制redis主从复制的配置启动redis主从实例测试redis主从是否配置成功redis的主从复制主节点数据更新后根据配置和策略，自动同步到从节点，Master以写为主，Slave以读为主。redis主从复制的作用：读写分离，使数据库能支撑更大的并发。做数据的热备，作为后备数据库，主数据库服务器故障后，可切换到从数据库继续工作，避免数据丢失。当 I/O 访问频率过高，单机无法满足，此时做多库的存储，降低磁盘 I/O 访问的频率，提高单个机器的 I/O 性能。red

2020-06-19 22:31:35 258

原创机器学习之电子商务网站用户行为分析及服务推荐案例

项目概述本项目案例根据某法律咨询服务网站的用户浏览记录，把用户划分为训练集的用户和测试集的用户，再根据找出相应用户的浏览记录划分为训练集数据和测试集数据。训练集用于后续构建用户物品矩阵，再根据用户物品矩阵构建物品相似度矩阵（根据杰卡德相似系数公式计算物品相似度）；测试集用于根据用户浏览记录给用户推荐用户可能感兴趣的网页，在计算推荐结果准确度的时候需要根据测试集构建用户浏览字典（键：ip，值：url（列表））案例用到的数据文件中的字段含义如下：案例代码案例代码如下，代码上已经附上相应的注释data

2020-06-18 10:35:21 3154 1

原创入门流计算——Storm

本文介绍流计算的概念、什么是Storm、Storm的安装以及如何运行Storm自带的单词统计测试例子。文章目录静态数据和流数据批量计算和实时计算流计算框架的要求认识StormStorm简介Storm的设计思想Storm的框架设计Storm的安装运行Storm自带的测试例子静态数据和流数据在讲清楚什么是Storm之前，我们需要了解流计算的概念。而在讲清楚什么是流计算之前，我们要先了解流计算的处理对象：流数据，而要阐明什么是流数据，我们又不得不先引入流数据的对照物：静态数据。数据总体上可以分为静态数据和

2020-06-16 03:50:48 1203

原创 Java操作HBase的编程实例

HBase常用的Java API在开始编程之前，我们先来了解一下HBase的一些Java API，与HBase数据存储管理相关的java API主要包括：HBaseConfiguration、Admin、HTableDescriptor、HColumnDescriptor、Put、Get、ResultScanner、Result、Scan。org.apache.hadoop.hbase.HBaseConfiguration该类用于管理HBase的配置信息，下面是一些其中的常用方法：Configu

2020-06-10 21:34:27 2499

原创 Flask笔记

什么是Flask在讲什么是Flask之前，我们先了解一下什么是Web Application Framework，Web Application Framework（Web应用程序框架）表示一个库和模块的集合，使Web应用程序开发人员能够编写应用程序，而不必担心协议，线程管理等低级细节。而Flask是一个用Python编写的Web应用程序框架。 Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。安装Flaskpip install -i https://pypi.tuna.tsi

2020-06-08 18:08:06 396 1

原创 sqoop安装及其使用

文章目录sqoop简介sqoop安装sqoop使用把MySQL中的数据导入到HDFS上将MySQL上的数据导出到数据库中记些bugsqoop简介sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)：将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase将数据从Hadoop 系统里抽取并导出到关系型数据库sqoop安装sqoop下载地址：Index of /dist/sqoop下载完成后把sqoop进行解压安装并配置，在添加sqo

2020-06-02 21:34:08 317

原创 Flask之图书管理小案例

案例运行结果代码运行后，浏览器地址栏输入：127.0.0.1:4442即可访问此web应用小程序数据库这边也实现了同步更新数据敲码前的絮絮叨叨项目目录结构如下本小demo向页面的表单提交作者、书籍信息到数据库中；并即时把数据库中相应数据取出来显示到页面上；点击页面的删除链接，可实现把相应书籍信息或作者信息从数据库中删除。本小demo使用Flask的扩展WTF实现表单显示，使用WTF自带的表单验证逻辑实现表单验证，并使用SQLAlchemy扩展连接数据库，并建立数据模型，通过对数据模型的操

2020-06-01 21:31:06 493

原创 Solr笔记

文章目录什么是SolrSolr的索引和搜索流程Solr界面Solr Core的子面板功能schema.xml配置文件详解实现MySQL数据库数据导入到solr索引库配置solrconfig.xml创建并配置data-config.xml配置Field域名导入相应jar包重启Tomcat客户端查询语法**solrj**的增删改查创建maven工程solrj添加数据solrj更新数据solrj删除数据solrj查询数据什么是Solr说到Solr ，不得不提起Lucene，Lucene是一个全文检索引擎工具包

2020-05-21 00:32:06 437

摩拜共享单车数据分析项目数据、代码、图表

spark音乐专辑数据分析项目.zip

echarts-wordcloud.min.js

空空如也