Joovo-CSDN博客

原创博客不再更新 && 工作变动

2024.6 工作方向：安卓Framework层开发。换工作了，Android应用层转为偏向底层，拾起了C++。2020.7 本科毕业了，工作方向为移动端混合开发。CSDN的博客不再更新。

2019-08-01 22:17:21 627

有一段时间没有更博客，从4月份开始，开始准备面试和手上有几个小型项目要做。因为是边学边做的，一些东西搬到博客上就显得很没有营养，自己看不如直接看Github上的代码注释，给别人看更讲不清，这才发现自己以前很多博客都没有讲清楚。内推找了一份不错的的独角兽公司的爬虫实习，投的是数据分析岗，但HR改成了爬虫，面试过程很顺利，offer 也发得很快。有了爬虫实习后可以更安心的去深入学习 scrapy 和...

2019-05-28 17:34:58 730 4

原创《流畅的Python》读书笔记

博客目录：《流畅的Python》读书笔记1-序列《流畅的Python》读书笔记2-函数的参数《流畅的Python》读书笔记3-operator模块和functools模块《流畅的Python》读书笔记4-函数装饰器和闭包详解为什么看这本书？很早就总各种方面接触到 Python，之前写过脚本，前一阵子开始写爬虫，写到复杂的爬虫发现自己边谷歌边打代码的方式已经不够用了。于...

2018-07-26 00:16:14 1702

原创退役

因为个人原因退役了大学的acm生涯算是戛然而止没什么特别出彩的地方（虽说刚开始是蛮不错的想着与其带着无聊的心情再去打几次比赛不如趁早抽身最近找到了以前选的导师开始想往数据分析的方面发展还是有点小遗憾吧有一点惋惜因为失去了激情~也不想再去做违心的事情多尝试点也不是不好不知道以后毕业工作的我再看到这篇会有什么想法呢之前...

2018-03-11 12:25:38 623

原创爬虫实习日志

做爬虫实习工作了快 4 周了，故整理一下思绪。第一周的一两天熟悉工作环境，做了简单的WEB爬虫项目，以为是练手的…没想到第二天就直接布置项目了，虽然比较简单，后续也会继续维护修改。第二周开始主要做app爬虫方面的东西，涉及到的量比较大，现在也还在编写，主要通过这些项目和一些杂项掌握的有：初步了解了逆向工程熟练掌握APP抓包对安卓Xposed破解SSL pinning有初步了解对Scra...

2019-07-19 01:00:05 3449

原创 SQL创建、查询、过滤、多表查询

《SQL学习指南》简要笔记1 SQL创建1.1 使用mysql命令行$mysql -u root -p [密码] bank -P3306表示用root用户登录并使用数据库bank，密码可以为空，端口为3306，省去了每次输入use bank的SQL命令。输入quit/exit退出。1.2 数据类型常用文本类型：可变长度fixed-length和固定长度variable-length...

2019-04-23 23:21:25 768

原创 Python链家租房信息爬虫

爬取链家某地区(杭州,南京等)租房信息爬虫。链家只开放了前100页供查看，每夜30条，因此实际上只爬取了前3000条信息。对于项目需求需要分析某地区某段时间内发布的租房信息，爬取对应的名称name，地区dist，面积square，价格price，备注detail，用pandas.DataFrame.to_excel()保存为 excel 文件。并发下载使用futures.ThreadPoolEx...

2019-03-11 09:31:36 2904

原创 Nginx+uWSGI+Flask+https配置

关于Nginx和uWSGI之间的关系，部署等等网上已经有很多抄来抄去的资料了，这里记录下小白第一次实践尝试的结果。按照自底而上的顺序写。文章目录1 Nginx/uWSGI/Flask/SSL证书是什么1.1 Nginx1.2 uWSGI1.3 Flask1.4 SSL证书2 创建Flask程序3 uWGSI配置4 配置Nginx1 Nginx/uWSGI/Flask/SSL证书是什么1.1 ...

2019-02-13 00:04:05 3703 1

原创 Dijkstra算法的Python实现

将图上的顶点分为已访问visited和未访问node两个集合.每次从visited向外拓展一个点,拓展规则是在可更新的点里是距离最小的.算法伪代码:def dijkstra(): 初始化 visited 和 node 集合,distance[] visited 加入源节点 node 移除源节点 while node 非空: 最短路径长度 = i...

2019-01-29 13:18:17 3434

原创光伏发电预测（二）

赛题的决赛要求：利用之前若干时段的光伏发电参数，预测未来两个月的每天15分钟一次共96个点的瞬时功率。先对数据集模糊聚类，再用相似日得出预测日的除了瞬时有功以外的所有参数，最后用神经网络计算预测日的瞬时有功。一、数据分析原始数据表“data.csv”，提供了用户A1-A10的2016年7月31日-2018年7月1日的瞬时有功、瞬时无功、A相电流、B相电流、C相电流、A相电压、B相电压、C相...

2018-12-30 01:06:40 11137 42

原创光伏发电预测（一）

最近参加了一个光伏发电预测的比赛，第一次接触这类课题，看了很多关于光伏发电预测和负荷预测的论文，算是入了一个门。主要工作还是在数据清理上和特征工程上。做好了这两项后面的预测过程倒是比较简单。比赛要求：利用之前若干时段的光伏发电参数，预测未来两个月的正向有功总电量。具体见下文。一、数据分析原始数据表 “data.csv”，提供了用户 A1-A5 的 2016 年 12 月 31 日-2018 ...

2018-12-30 00:26:17 21733 31

原创有道词典爬虫

文章目录有道词典爬虫代码实现有道词典爬虫构造url对单个单词的释义及例句进行爬虫。查询界面不需要登陆操作，用 GET 方法获取源代码。对于上图所示的单词查询界面，简单地对单词’scene’ 进行替换即可。很久没有用xpath解析，有点生疏。从审查元素可以看到每个例句都被<div class='ol'>包含，遍历他的子节点即可。代码实现import requests...

2018-12-11 18:50:56 1990

原创爬取vjudge的比赛代码和相关信息

文章目录概述开发过程代码结构源代码怎样使用github 地址：https://github.com/Joovo/vjudge_spider概述爬虫的目的是作为 contest 管理员需要统计 contest 下参赛者的错误信息并下载所有参赛者代码。代码实现的是分题号分别统计 Wrong Answer 的所有代码,编号及简要信息,稍加修改即可实现爬取其他具体信息，如代码长度,运行时间等等....

2018-12-09 02:57:39 2930 3

原创 tensorflow实现线性回归

文章目录计算图归一化实现梯度下降手动梯度下降自动微分用 tensorflow 实现一个线性回归程序简单了解tensorflow的一些基本操作。计算图tensorflow 的本质是用Python构建一个计算图，然后用优化后的C++代码来运行这个图，因此适用于大型机器学习和分布式计算中。构建一个图：import tensorflow as tf# 构建图x=tf.Variable(3,n...

2018-12-06 01:33:43 828

原创 Adaboost 元算法改进分类性能

文章目录概述bagging 自举汇聚法Adaboost 元算法AdaBoost的一般流程更新规则：单层决策树`decision stump`基于 DS 建立 Adaboost完整代码，预测患有疝病的马是否能够存活概述元算法（meta-algorithm）或集成方法（ensemble method）的思路是对多个不同的算法进行组合，从而使答案尽量达到最优的一种方法。Adaboost 是一种非常优...

2018-11-22 01:34:10 1606

原创《流畅的Python》12-构造对象

构造对象的常用到几个概念：super(),__new__,__init____new__和__init__一般将__init__称为构造方法，实际上__new__用于实例化类，__init__用于初始化实例。Python构造对象的伪代码：def object_maker(the_class,some_arg): new_object=the_class.__new__(some...

2018-11-15 22:33:05 373

原创 SVM的分类超平面的数学推导

给出数学推导，每个向量的意义不再赘述转换原问题确定每个支持向量下的超平面:min y(w^T+b)/||w||间隔最大的为所求最优的超平面 max min y(w^T+b)/||w|| ，即求：arg&amp;amp;amp;amp;amp;amp;nbsp;maxwT,b{minx&amp;amp;amp;amp;amp;amp;nbsp;yi×(wTxi+b)1∣∣w∣∣},yi即labeliarg \space \underset{w^T,b} {max}

2018-10-25 01:31:02 1768

原创线性回归 Python 语言实现

先占一个坑，最近几周在做一个比赛，十一月份回来补代码发上来注释掉免得又鸽了。。。。《机器学习实战》这本书有几点不适合入门者深入学习的地方是关键代码没有给出具体原理，而介绍方式是对机器学习每个基础算法进行讲解，所以经常在学习几个章节之间会感觉到断层，需要其他一些地方自行理解。线性回归这章后面的优化方式又讲的太多没讲清，我认为这是一个问题，博客也不好记。最好在一个专门的章节讲优化方式。公式推导见...

2018-10-24 18:36:32 544

原创线性回归系数，局部加权线性回归系数的数学推导

用最小二乘法Ordinary Least Square即通过最小化误差的平方和寻找数据的最佳函数匹配∑i=1m(y−xiTw)2\sum_{i=1}^{m}(y-x_i^Tw)^2i=1∑m(y−xiTw)2用矩阵表示:(y−Xw)T(y−Xw)(y-Xw)^T(y-Xw)(y−Xw)T(y−Xw)对这个式子求导，令其等于0，解出www即为最优解。结论为w^=(XTX)−1...

2018-10-18 18:09:20 2822 1

原创最大似然函数

补一下概率论的知识，不会还得翻书，稍微记一下几个点。1.MLE:最大似然估计2.确定最值点：∂∂θjL=0或∂∂θjlnL=0\frac{\partial}{\partial \theta_j}L=0 或 \frac{\partial}{\partial \theta_j}ln L=0∂θj∂L=0或∂θj∂lnL=03.最大似然估计的不变性：若θ^\hat{\theta}θ^是θ...

2018-10-12 10:41:24 1189

原创逻辑回归分类器(Logistic Regression)

目录Logistic回归概述Logistic回归分类器，Sigmoid 函数最优化理论确定回归系数（weight）梯度上升法数学推导随机梯度上升处理数据的缺失值实例：预测病马死亡率吃了概率论的亏逻辑回归(Logistic Regression)概述直观来说，用一条直线对一些现有的数据点进行拟合的过程，就叫做回归。Logistic分类的主要思想：根据现有数据...

2018-10-11 18:26:07 12748 1

原创朴素贝叶斯分类器-文档分类

朴素贝叶斯理论概述条件概率用朴素贝叶斯进行文档分类文本分类代码文档词袋模型实例：朴素贝叶斯过滤垃圾邮件朴素贝叶斯理论概述朴素贝叶斯(navie bayes)是贝叶斯决策理论的一部分,只考虑最简单的假设，用 Python 将文本切分为词向量，然后利用词向量对文档分类。优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标...

2018-10-08 21:21:34 1216

原创 concurrent.futures 并发爬取 wos 的部分专利号和施引专利

工作上需要爬取 wos 的一些专利号和施引专利，做成了一个 excel 表格。施引专利在系统默认的导出里是没有的。第一次实际运用了concurrent.futures 来处理并发下载，确实很简单。一开始用 scrapy 框架貌似连接非常慢，不知道什么原理，三次连接两次超时，于是手写了一个用很多 try/except 结构的 spider 。一定要记得写日志和异常处理！！！！全文基本上没有很难...

2018-10-06 22:27:19 1225

原创 scrapy 爬取 arxiv.org 论文

和同学想要建立一个检索 arxiv.org 论文的网站，这是一个 demoGithub地址：https://github.com/Joovo/Arxiv鸽了好久把博客补了，主要实战里熟练了 scrapy 的操作：scrapy shell 检验 xpath 正确性reponse.xpath().extract() 转换为字符串列表str.strip()处理数据获取 xpath 的子节点...

2018-10-06 14:53:00 2980 2

原创一个OneDark风格的Pycharm配色方案

无聊手撸了一个：一个 OneDark 风格的 Pycharm 配色方案放在Github上了.Github链接

2018-10-02 12:25:59 9269 1

原创决策树 ID3算法

决策树ID3算法概述决策树的构造信息熵，信息增益 entropy，infomation gainshannon entropy划分数据集去除dataset中的一列。递归构造决策树(分类器)处理最后一个节点递归建树shannon entropy去除dataset中的一列。递归建树实例-使用决策树预测隐形眼睛类型pickle模块存储决策树ID...

2018-09-29 20:57:08 1035

原创 K-近邻算法（KNN）识别手写数字

k-近邻算法概述算法样本集及分类核心代码output is BKNN中的几个常见写法numpy.ndarraynumpy.ndarray.shapenumpy.tile(A,reps)k-近邻算法概述KNN算法采用测量不同特征值之间的距离方法进行分类，输出一个分类族群。主要工作原理：存在一个训练样本集，并且每个样本集中每个数据都存在标签，即数据和对应所属分类的...

2018-09-27 01:34:01 966

原创《流畅的Python》11-用concurrent.futures (期物)处理并发

期物（future）是指一种对象,表示异步执行的操作。这个概念的作用很大,是 concurrent.futures 模块和asyncio 包(第 18 章讨论)的基础。期物是译者自创的词，类似于期货，期权，字面上可以简单理解为要执行而未执行的操作。这一章基本上可以作为协程和asyncio包两个章节中承上启下的部分，因为协程实际上描述了异步的思想和简单实现，而concurrent.futur...

2018-09-09 00:15:34 865

原创《流畅的Python》10-协程初步

StopIteration协程放在生成器，迭代器后面讲，这也是生成器的最终的归宿，或者把它理解为高阶的特性。如果生成器仅仅是当作语法糖，那么它可以被很容易的被其他形式替代而不会被重视。同时，作者指出，协程作为一种鲜为人知，资料匮乏的特性，看起来并不是很有用，常常被忽视。实际上关于Python的一般广为人知的特性已经介绍完了，不过事情正变得更有趣。前面介绍协程，然后介绍新的句法，用yield...

2018-09-03 23:58:02 446

原创 Python 函数的参数，签名

参数处理机制函数签名对象注意是小写的signature参数处理机制用一个例子来看 Python 的函数参数处理机制。 Python3 提供了仅限关键词参数（ keyword-only arguement）。...

2018-09-03 21:15:49 2124

原创《流畅的Python》9-上下文管理器，with 和 else

else 的用法除了 if/else 外，for ，while 语句都可以使用 else 。举例for i in range(10): if i == 11: breakelse: print('magic')含义显而易见，处理for循环里没有被处理的情况，优点是不用设置特殊标志来判断。上下文管理器with 语句处理的对象就是上下文...

2018-08-29 22:42:30 409

原创《流畅的Python》8-可迭代对象，迭代器和生成器

关注的本节内容：实现一个可迭代对象和迭代器可迭代对象和迭代器的区分实现一个标准的迭代器生成器迭代器(进阶)惰性定义一个Sentence 类生成器表达式（语法糖）实现一个可迭代对象和迭代器可迭代对象如何实现迭代？调用iter(x) , x为可迭代对象。按照三个顺序： 1. 是否实现了__item__方法，如果实现了，调用他并获取一个迭代器。 2. 是否实现了__...

2018-08-27 03:19:09 378

原创《流畅的Python》7-白鹅协议和抽象基类

这章主要讲的是 Python 风格下的协议和接口思想，不是很好归纳，搬运了一下书上的介绍。Python 里面没有给出类似 Java 中的interface的官方用法。本章讨论的话题是接口:从鸭子类型的代表特征动态协议,到使接口更明确、能验证实现是否符合规定的抽象基类(Abstract Base Class,ABC)。本章先说明 Python 社区以往对接口的不严谨理解:部分实现接口通常被认...

2018-08-24 11:07:51 835

原创《流畅的Python》6-鸭子类型和切片原理

书中 9-10 章用实现一个Vector类来了解一个类的运行和实现过程，作者实现的细节非常值得一看，这里就不搬运了，讲一下序列中切片的原理。鸭子类型切片原理鸭子类型在程序设计中，鸭子类型（英语：duck typing）是动态类型的一种风格。在这种风格中，一个对象有效的语义，不是由继承自特定的类或实现特定的接口，而是由”当前方法和属性的集合”决定。通俗来讲，“当看到一只鸟走...

2018-08-10 01:25:24 511

转载 [转]Linux安装nodejs 解决node与npm版本问题

转载自 https://blog.csdn.net/deaidai/article/details/79925485#commentBox前言LINUX环境：ubantu16.04Nodejs官方安装地址：戳这<<安装方式1.执行检查可更新的软件sudo apt-get update 2.先用普通的apt工具安装低版本的node，然后再升级最新sudo ...

2018-07-26 17:22:46 2719

原创《流畅的Python》5-对象引用，可变性，垃圾回收

标识，相等性和别名在 == 和 is 中选择元组的相对不可变性浅复制和深复制默认做浅复制如何做深复制函数的参数作为引用防御可变参数垃圾回收 weakref.finalize注册回调函数观察对象销毁弱引用weakref.WeakValueDictionary简介很有趣的基础知识环节。标识，相等性和别名每个变量都有标识，类型，值。每个对象标识只有...

2018-07-25 23:50:08 659

原创《流畅的Python》4-函数装饰器和闭包详解

基础知识Python 何时执行装饰器用装饰器改进“策略”模式变量作用域规则闭包nonlocal 声明实现一个简单的装饰器标准库中的装饰器 functools.lru_cache 做备忘单分派泛函数叠放装饰器参数化装饰器在我另一篇博客里稍微有讲到一点，说的不是很好。首先学习前要了解 Python 里函数是一等对象。函数装饰器是用来增强函数的行为，而想实现...

2018-07-21 00:34:17 728

原创《流畅的Python》3-operator模块和functools模块

operator模块使用 itemgetter 排序一个元组列表。attritem 提取对象的属性。methodcallerfunctools.partial 冻结参数 Python 提供 operator模块和 functools模块来方便地实现函数式编程。operator模块用lambda实现阶乘函数from functools import red...

2018-07-17 00:30:08 688

原创《流畅的Python》2-函数的参数

用一个例子来看 Python 的函数参数处理机制。 Python3 提供了仅限关键词参数（ keyword-only arguement）。用*可迭代对象，用**表示映射到单个参数def tag(name,*content,cls=None,**attrs): if cls is None: attrs['class']=cls if attrs...

2018-07-16 17:05:41 559

原创弹幕网站开发（只有前端）

index.htmldanmu.cssdanmu.js 之前学习了一段时间 HTML,css，近期简单看了一下 bootstrap,jQuery，JavaScript，于是做了弹幕网站练一下熟悉感觉。原先的想法是有后端，储存到服务器上的，看了一下LeanCloud感觉可以用，不过先跳票了，先把前端打完再说吧。第一次开发 Web，主要以借鉴网上的代码为主，看了一下各大弹幕网...

2018-07-14 15:43:29 2088

空空如也

空空如也