- 博客(117)
- 问答 (2)
- 收藏
- 关注
原创 Kaggle练习赛---Titanic的分析与整理
前言开始Kaggle练习,最先进行的当然是Kaggle的“Hello World”---“Titanic: Machine Learning from Disaster",即预测...
2020-06-30 22:00:13 1103
原创 机器学习笔记---从极大似然估计的角度看待Logistic回归
前言看完极大似然估计后,想起Logistic回归中的参数估计就是使用这个方法,因此详细的记录整个推导的过程。【公式可以移动,若不能,可以切换横屏】本文约1.4k字,预计阅读10分钟Log...
2020-06-15 16:39:37 812
原创 机器学习笔记---正则化为什么可以抑制过拟合?
前言上期详细的介绍了过拟合的现象。那如何抑制过拟合呢?大家都知道应该加入正则化项,那为什么加入正则化可以达到这个效果?参考了很多资料,所以就有了这篇笔记。本文约2.3k字,预计阅读15分...
2020-06-13 15:58:18 996
原创 机器学习笔记---给“过拟合”下一个准确且规范的定义
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。由于在小组会上提到了“过拟合”现象,发现自己很难给它下一个标准且规范的定义。因此查了一些资料,并简...
2020-06-07 23:12:57 584
原创 【论文导读】2018阿里CTR预估模型---DIN(深度兴趣网络),后附TF2.0复现代码
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。今天分享一篇最近看的,阿里2018在KDD上发表的论文《Deep Interest Network...
2020-06-01 19:18:31 2146
原创 2018阿里广告点击率预估模型---DIN,Tensorflow2.0代码实践,并附上github
前言最近看了2018年阿里在KDD上发表的论文《Deep Interest Network for Click-Through Rate Prediction》,想复现下,看了文章给出的github开源代码,发现环境是TF1.4的,并且注释太少,有些没大理解【还是太菜了】,因此准备参考原有代码使用TF2.0来对模型进行简单的复现。如果有些地方有些出入或者错误,请大佬们给我指出,感谢【因为现在没服务器,所以没像开源中跑完50个epoch】数据分析1、数据集为论文中的Amazon Dataset,下载并解
2020-05-28 10:22:22 3366 1
原创 Python序列化---Pickle模块【大量数据的情况下,如何提高Python读写数据的速度?】...
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。最近在复现2018年阿里提出的CTR预估模型---DIN,关于原生数据的处理以及数据集的构建,因为...
2020-05-27 15:48:34 4927 1
原创 第一次参赛---2020腾讯广告算法大赛Baseline思考与分析
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。2020腾讯广告算法大赛是我参加的第一个正式比赛,在此记录下目前做的一个Baseline思路【用于...
2020-05-18 17:50:27 3363 14
原创 通过比赛整理出的8条Numpy实用技巧【你知道如何频数统计和按某列进行排序么?】...
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。最近被比赛折磨得不行,能不能苟进复赛,混件文化衫也两说。在此我把用到的一些Numpy方法进行下总结...
2020-05-16 22:16:08 1188
原创 竞赛知识积累---TF-IDF方法可以作为特征工程【sklearn实现】
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。最近看到2018年易观竞赛题---对用户性别年龄进行预测,Top1队伍的特征工程使用了TF-IDF...
2020-05-13 18:00:00 940
原创 Pandas笔记---深入Groupby,它的功能没有你想的这么简单
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。上篇文章提到了Groupby,但其中举例的代码有点问题,在提取序列时用到了for循环,效率很慢,后...
2020-05-11 14:29:06 745
原创 Pandas笔记---通过比赛整理出的10条Pandas实用技巧
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。最近还在参加某比赛,将pandas对数据预处理的方法进行了总结,以下列出的10条是我觉得比较常用、...
2020-05-09 19:15:31 336
原创 【Python爬虫实战】2020最新无错误,头条爬取图片实战,Ajax异步加载,附有源码
头条搜索关键词,爬取相关图片头条的爬取设计Ajax数据的爬取。导入包:import requestsimport timeimport osimport refrom hashlib import md5from urllib.parse import urlencodefrom multiprocessing.pool import Pool分析打开Chrome/Safr...
2020-05-08 12:53:32 625
原创 Pandas笔记---概述与数据结构
Pandas概览Pandas 是 Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。数据结构Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数...
2020-05-07 21:53:31 333
原创 机器学习笔记---你真的懂决策树么?
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。本期介绍机器学习中的决策树。主要从特征选择的标准、剪枝技术、连续值与缺失值处理展开。本文约5k字,...
2020-04-15 18:28:42 395
原创 机器学习笔记---信息熵
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。休整(偷懒)一星期后,我决定还是写一些关于机器学习的笔记,单纯写Python文档确实有点无聊。因为...
2020-04-13 16:05:36 642
原创 「通过Docs学Python」(番外)浅谈Python代码规范
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。这段时间我看过好几位粉丝甚至是我同学(反正也看不到)写的代码,emmm,确实看得让我有点难受。好的...
2020-04-07 16:59:29 230
原创 「通过Docs学Python」(三)内置类型:文本、集合以及映射
点击上方“潜心的Python小屋”关注我们,第一时间推送优质文章。前言大家好,我是潜心。这是「通过Docs学Python」的第三篇文章。看了看之前写的,发现讲一堆方法,然后每个举个例子这...
2020-04-05 16:33:22 253
原创 【Python爬虫】【2020最新哔哩哔哩验证码识别实战】【滑块验证码】【附源码】
哔哩哔哩实战----验证码识别利用Selenium来模拟B站登录,并实现线极验验证码的识别。初步分析B站的登录界面如下:登录需要完成:1、账户输入;2、密码输入;3、登录后需要通过滑块来进行验证;难点就是如何去实现滑块验证并且模仿人的操作。导入包:import timefrom io import BytesIOfrom PIL import Imagefrom seleni...
2020-04-04 19:04:54 2240 1
原创 「通过Docs学Python」(二)内置类型:数字与序列
点击上方“蓝字”关注我们,第一时间推送优质文章!前言大家好,我是潜心。关注人数终于突破了100,非常感谢大家的关注。这是改名后也是「通过Docs学Python」系列正文的第一篇文章。之...
2020-04-03 17:15:20 186
原创 「通过Docs学Python」(一)前言
点击上方“蓝字”关注我们,第一时间推送优质文章!前言大家好,我是潜心,一位Python爱好者。学习Python一年,我一直想写一个关于Python学习的系列,包含语法、语言核心、标准库以...
2020-04-01 17:09:25 244
原创 爬虫基础知识(一)多线程与threading模块
点击上方“蓝字”关注我们,第一时间推送优质文章!前言“本期带来的文章是python中多线程与threading模块的主要内容。主要分为「并发与并行」,「进程与线程」,「python实现多...
2020-03-30 20:30:15 380
原创 【2020最新,无错误!】python实现百度API---地址转经纬度(地理编码)/经纬度转地址(逆地理编码),含源码
百度API获取AK首先我们打开百度API开放平台,注册/登陆自己的账号,成为百度开发者,在「应用管理」— 「我的应用」中创建应用,如下所示:在「创建应用」中输入「应用名称」,并且「请求校验方式」选择「IP白名单交验」,这里我们不使用「sn校验方式」,因为需要计算sn,并且为了方便,IP白名单选择了“0.0.0.0/0”,不对IP进行限制(这里是为了Debug,如果想要上线,请设置合理的IP...
2020-03-29 17:19:04 2574
原创 解析协同过滤方法(三)
点击上方“蓝字”关注我们解析协同过滤方法(三)Mar 29, 2020本期介绍基于神经网络的协同过滤方法。本文约2.2k字,预计阅读13分钟。上篇文章【解析协同过滤方法(二)】讲述了协同...
2020-03-29 17:03:00 779
原创 爬虫实战(三)----使用百度API获取经纬度/地址
点击上方“蓝字”关注我们百度API获取经纬度/地址Mar 28, 2020本期介绍给定地址/经纬度,使用百度API来获取经纬度/地址。本文约3k字,预计阅读18分钟。本次是第三篇爬虫实战...
2020-03-28 21:08:17 7698 1
原创 今日头条爬虫实战----爬取图片
点击上方“蓝字”关注我们今日头条爬虫实战Mar 27, 2020本期介绍通过在头条中搜索关键词后,分析ajax内容来爬取相关图片本文约1.8k字,预计阅读10分钟。有时候我们在用 「re...
2020-03-27 17:57:27 634
原创 解析协同过滤方法(二)
点击上方“蓝字”关注我们协同过滤(二)Mar 26, 2020本期介绍介绍协同过滤中的隐语义模型。本文约2k字,预计阅读12分钟。上篇文章【解析协同过滤方法】讲述了协同过滤的概念:只依赖...
2020-03-27 17:57:27 374
原创 解析协同过滤方法
点击上方“蓝字”关注我们协同过滤(Collaborative Filtering)Mar 26, 2020本期介绍推荐系统中的协同过滤方法。本文约3k字,预计阅读18分钟。「基于用户行...
2020-03-26 11:42:41 1006 1
原创 【论文导读】MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS
点击上方蓝字“小透明的推荐之路”一起学习吧MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS前言(Foreword)本篇文章是...
2020-03-25 16:29:47 1605
原创 初步认识深度学习
深度学习(Deep Learning)定义:一类通过多层非线性变换对高复杂性数据建模算法的合集。因为深度神经网络是实现“多层非线性变换”最常用的一种方法,基本可以认为深度学习就是深度神经网络的代名词深度学习最重要的两个特性:多层和非线性线性与非线性线性的局限:只通过线性变化,任意层的全连接神经网络和单层神经网络模型的表达能力没有任何区别。线性模型能解决的问题是有限的。激活函数激活函数实...
2019-04-18 17:24:07 265
原创 卷积神经网络初步认识
卷积神经网络(Convolutional Neural Networks,CNN)监督学习两大类:分类问题,归一问题卷积神经网络相对于全连接神经网络的优点:有效地减少神经网络中参数个数卷积神经网络主要构成输入层:图像的原始像素矩阵卷积层:卷积层中每一个节点的输入只是上一层神经网络的一小块(常用大小3X3,5X5)。卷积层试图将神经网络中的每一块进行更加深入地分析从而得到抽相关程度更高的...
2019-04-18 16:28:28 485
原创 Java之NIO概述
三个月没写博客了,主要也不知道写什么,光顾着向GitHub传题目了。理了下思路,并结合了《Thinking in Java》和API文档,分享了下自己对NIO的理解,当然这只是针对于文件I/O,毕竟其他内容实在太多太多了…NIO概述(文件I/O)2002年2月13日,JDK1.4发布,工程代号为Merlin(灰背隼)。JDK1.4发布了很多新的特性,其中就包含NIO。 java.ni...
2018-03-27 20:37:39 1481 1
原创 【LeetCode】Next Permutation(查找下一个排列组合)
Implement next permutation, which rearranges numbers into the lexicographically next greater permutation of numbers.If such arrangement is not possible, it must rearrange it as the lowest possible orde
2017-12-30 15:04:29 907
原创 IDEA中导入JSTL的格式化标签库fmt
和导入JSTL的核心标签库一样,在IDEA中,File->Settings->搜索dtd,“+”号中添加url:“http://java.sun.com/jsp/jstl/fmt”,并且找到自己下载的jstl的fmt.dtd文件,导入:完成后,再在自己的Web项目中导入两个jar文件,IDEA就可以识别fmt标签了!
2017-12-03 19:49:14 1329
原创 Servlet
ServletServlet是一个Java程序,一个Servlet应用应该包含一个或多个Servlet程序。JSP页面会转换和编译成Servlet程序 Servlet应用必须运行在Servlet容器中(Tomcat、Jetty等),Servlet容器将用户的请求传递给Servlet应用,并将结果返回给用户Servlet APIjavax.servlet,Servlet和Servlet容器之间契约
2017-12-02 17:09:04 321
原创 Hibernate映射(二)
使用Hibernate的主键生成策略JPA标准注解只支持AUTO、IDENTITY、SEQUENCE、TABLE。Hibernate支持更多的主键生成策略。使用@GenericGenerator注解,定义生成主键生成器@GenericGenerator,属性: name:设置主键生成器的名称,名称被@GeneratedValue的generator属性引用 strategy:设置该主键生成
2017-11-24 19:26:21 395
原创 详解equals()方法和hashCode()方法
详解equals()方法和hashCode()方法基类Object提供的一些方法: equals()方法:用于判断两个对象是否相等 hashCode()方法:用于计算对象的哈希码 两者都可以被重写一、equals()方法 Object类中equals():public boolean equals(Object obj){ return (this==obj);}JDK中说明了实现
2017-11-21 16:27:12 336
原创 Hibernate映射(一)
PO=POJO+注解修饰PO类被@Entity修饰的持久化类的所有属性都会被映射到底层数据表 @Entity:可指定一个name属性(为该实体类的名称) @Table:指定持久化类所映射的表,属性: name:设置持久化类所映射表的表名。无指定,则和持久化类名相同 @UniqueConstraint:用于为数据表定义唯一约束,属性: columnNames:
2017-11-13 20:53:44 286
原创 Hibernate版本问题报错:org.hibernate.MappingException: Unknown entity
在初次开发持久类时,通常是需要如下步骤:1、开发持久化类,由PO(Persistent Object)=POJO(Plain Ordinary Java Object)+持久化类注解组成 2、获取Configuration实例 Configuration conf=new COnfiguration().configure();//无参configure()方法默认加载hibernate.cfg
2017-11-06 20:57:41 483
转载 带包的java文件用javac编译
javac和java命令行中的-classpath选项这是个很基础的问题,但是因为基本上都是用现有的IDE工具 来开发java程序,所以很少有人意识到这一点。 javac -classpath,设定要搜索类的路径,可以是目录,jar文件,zip文件(里面都是class文件),会覆盖掉所有在CLASSPATH里面的设定。 -sourcepath, 设定要搜索编译所需java 文件的路径,可以是目
2017-10-26 19:57:00 1720
空空如也
Spring ApplicationContext的国际化乱码
2017-10-10
c#,在一个数组中,0-8九个数怎么进行随机排布,不知道是哪里错了,实现不了
2016-10-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人