过半的2020

最新推荐文章于 2024-07-24 22:14:11 发布

fourier_transformer

最新推荐文章于 2024-07-24 22:14:11 发布

阅读量231

点赞数

分类专栏：记录文章标签：机器学习大数据

本文链接：https://blog.csdn.net/fourier_transformer/article/details/107316821

版权

记录专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天是2020年7月12日，距离上一篇博客发布已经一个多月。这一个多月里，我主要做了以下几件事：

博客系统
玩win10…
用python实现的音频AI技术
大哥说让我看个他们最近开发的项目，理一理架构
大哥说让我找找有没有自动标签生成相关的产品，我就顺便接触了下NLP，看了看介绍，以及关键字生成的一些特征算法
玩了玩python爬虫，爬了实习僧网站。下一步准备结合关键字提取，做一下数据分析，主要目标是找出岗位的主要需求
哦对，还有趁着steam夏促玩了个神作——Outer Wilds

博客系统

首页

技术总结

在学习完Servlet, html, jsp, jdbc这些远古底层开发技术之后听大哥的直接跳到了Springboot。但是因为对注释、反射以及MVC开发模式不熟悉，导致看书和视频都看不懂，于是想着在具体中学习。b站上正好遇见一个Springboot开发的博客系统项目，跟着做了一遍，也完成了一个前端+后端的全栈小项目，终于知道Springboot是怎么回事了。然后后端增加了一些功能，改进了一些bug。一直想着把前端改一改，奈何前端实在不熟悉就一直搁置着。有个属于自己的写字的地方感觉很好，但前端还用的别人的，个人感就少了许多，希望之后有精力再改一改。

Win10

做完这个项目之后的一段时期比较迷茫不知道要干什么。实习公司的大佬们整天都在谈论业务层面，总是感觉我们不是在一个维度，我一个还在学技术的，大多数时候听不懂他们在说什么，目前也参与不到项目中去。半路出家的开发，又能怎么样呢。

并且我还是个搞信号的啊。。。开发，，唉

折腾美化win10

Audio AI

Sound of AI Youtube Channel

我的gitee仓库

我有一段时间一直想做一个即兴辅助软件，拿gtp做为数据集，训练个模型根据所弹的旋律自动生成即兴旋律。想法主要来源于即兴太难练了，做的这个东西类似于代码里的auto complete自动提示。每次下班的时候就在想这个项目，最后发现各种别的地方的想法，用在音乐这种高即时性的产品，都行不通。就算能准确识别我弹的旋律，就算模型能生成不错的旋律（这两个每个都是很大的课题），但生成之后怎么能顺利地弹出？演奏者必须具备极强的视奏能力。就算满足视奏能力，但玩音乐终究还是要靠听觉的，一直注意力在眼前的谱子根本玩不起来。想法暂时搁置了，以后再想想怎么搞一个辅助即兴的工具。

不过跟🐟同学提起过这个想法，他推荐我一个youtube博主，德国人，做AI Music的，有一个melody generation series。我看了看还是从基本的开始学起吧，先跟着做了一个genre classification项目。10种分类，以MFCC作为特征。利用python tensorflow的keras API，构建、训练模型。keras挺方便的。

发挥了一下我的GTX 950😀的性能，用GPU版本的tensorflow训练了一个LSTM模型，测试准确率在70%。比CPU版本的快多了。

一个小问题

用CPU和GPU版本训练的时候碰见了一个小问题。因为教程上用的CPU版本，我底下换GPU版本后，CNN和LSTM网络两个准确性都没有大的差异，但是ANN训练，CPU会比GPU高10-20%，很奇怪。

即便做完了，还是有很多概念模糊的地方，毕竟只是毕设简单接触了下SVM，现在深度学习从零学起了。

BladeX

大哥给我看了他们最近在开发的系统。基于开源项目BladeX。涉及到了业务领域的一套代码生成系统。我想这代码生成，就是那种能一键给我生成一套博客管理系统的吧。然后发现怪不得我一直听不懂他们讲话呢，我连业务是啥都还没搞清楚呢。

实习僧爬虫+关键词提取+数据分析

大哥让我找找网页剪藏后标签自动生成的技术，顺藤摸瓜做了这个项目。首先了解了点关键词提取特征，TTF, LDA, textrank啥的，看了看NLP知识。然后研究了一下网页正文内容提取技术，尝试了两种方法：块状分布函数和中文文章的正文div标签选择。

但是准确率都一般。我于是放弃了提取任意网站正文的想法，反正爬虫针对的一般只是一个网站，建个字典，把网站正文的div保存下来就得了，还搞尼玛算法。

CONTENT_SELECTOR = {
    'github': '#readme',
    'csdn': '#article_content',
    'news163': '#endText',
    'jianshu': '.article',
    'douban': '#link-report'
}

就这样，只要搜集的信息够多，理论上能实现对任意站点的正文提取。👻

然后我就开始爬csdn和网易新闻，用BFS爬了10w个正文。

发现没标签也不好训练啊。。。计划暂时搁置，却发现爬虫挺有意思的，盯上了之前想爬的实习僧。

正好前端小哥帮我发现了字体反爬，我就顺着研究下去，成功爬到了。

爬取实习僧的目的主要是看各个行业的各个公司对找人的要求是什么，我们学生才好找对方向。要求都是在详情页面以文字的形式提供，所以这时我想到了对其用关键词提取技术进行数据分析，之后再搞搞统计什么的（具体还没想好）。

至于关键词提取发现了百度提供的API：文章标签生成。个人开发者有50w次的调用机会。准备搜搜文献看看百度是怎么实现的。

Outer Wilds

在这里插入图片描述

趁着Steam夏促入的第一人称解谜类游戏，和之前玩的Witness很像，甚至引擎感觉都是用的一个。玩的时候就像实际体验星际穿越一样，在未知的宇宙的各个星球探索，都不知道自己以什么形式存在了。

fourier_transformer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
过半的2020

今天是2020年7月12日，距离上一篇博客发布已经一个多月。这一个多月里，我主要做了以下几件事：博客系统玩win10…用python实现的音频AI技术大哥说让我看个他们最近开发的项目，理一理架构大哥说让我找找有没有自动标签生成相关的产品，我就顺便接触了下NLP，看了看介绍，以及关键字生成的一些特征算法玩了玩python爬虫，爬了实习僧网站。下一步准备结合关键字提取，做一下数据分析，主要目标是找出岗位的主要需求哦对，还有趁着steam夏促玩了个神作——Outer Wilds博客系统首页
复制链接

扫一扫

专栏目录