项目实战
基础知识掌握的差不多了,但如何在实战中不断总结项目经验是个大问题。下面将用两个月时间跟着教程做一些爬虫,机器学习,大数据方面的实战项目,希望大家多多支持。
Data_Designer
热衷于数据分析,大数据处理,机器学习等领域,天津大学,硕士学位,希望在编码和科研的过程中积累自己一点微不足道的经验,以后希望从事的工作方向为推荐系统和数据分析等领域,目前在网易伏羲Lab算法工程师实习。
展开
-
推荐系统经典-BPR算法
理论:其实就是追求参数的最大后验概率数据集:movie_len的格式import numpy as np import pandas as pd import scipy.sparse as spimport torch.utils.data as dataimport torchimport torch.nn as nnimport osimport timedataset = 'ml-1m'main_path = './Data/'train_rating = main_p原创 2021-05-12 14:27:43 · 1252 阅读 · 0 评论 -
动手学习深度学习-一些不能细想的问题(持续更新)
推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买量较大(可能被认为更好)的商品,然而目前用户的购买习惯往往是遵循推荐算法,但学习算法并不总是考虑到这一细节,进而更频繁地被推荐。强化学习的目标是产生一个好的策略(policy)。 强化学习 agent 的选择的”动作“受策略控制,即一个从环境观察映射到行动的功能。当环境可被完全观察到时,我们将强化学习问题称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(context原创 2021-03-24 20:58:24 · 510 阅读 · 0 评论 -
DQN的Pytorch实现
import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gym# Hyper ParametersBATCH_SIZE = 32LR = 0.01 # learning rateEPSILON = 0.9 # greedy policyGAMMA = 0.9 # rewa.原创 2021-04-08 22:07:09 · 722 阅读 · 0 评论 -
Q-Learning和Sarsa Table
import numpy as npimport pandas as pdimport timenp.random.seed(2) # reproducibleN_STATES = 6 # the length of the 1 dimensional worldACTIONS = ['left', 'right'] # available actionsEPSILON = 0.9 # greedy policeALPHA = 0.1 # learning r.原创 2021-04-08 12:40:50 · 229 阅读 · 0 评论 -
强化学习代码理解1-Policy Gradient
# 策略梯度算法# 2020.5.22## cartpole 的state是一个4维向量,分别是位置,速度,杆子的角度,加速度;action是二维、离散,即向左/右推杆子# 每一步的reward都是1 游戏的threshold是475import argparseimport numpy as npimport gymfrom itertools import countimport torchimport torch.nn as nnimport torch.nn.functi.原创 2021-04-07 22:47:52 · 863 阅读 · 1 评论 -
FM家族Pytorch实现
import torchimport numpy as npimport pandas as pdimport torch.nn.functional as Fimport torch.nn as nnfrom sklearn import preprocessingfrom util.load_data_util import get_batch_loaderEPOCHS = 500BATCH_SIZE = 1000DEVICE = torch.device("cuda" if to.原创 2021-03-29 17:41:34 · 582 阅读 · 0 评论 -
Hive查询优化
害,最近组里有个妹子不是很懂SQL,一查就等好长时间,看的我十分揪心,算了,写几个常见的Hive查询优化叭。-- 1. 条目少的表或者子查询放在join左边,因为join左边会读入内存select a.val ,b.valfrom a --条目少join b on a.key =b.key-- 2. join 操作的时候应当将过滤条件放在on后面,因为where会在join后执行select a.val, b.val from a left join bon a.key = b原创 2021-02-27 22:49:17 · 462 阅读 · 0 评论 -
数据分析-全流程(持续更新)
# 导入包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlineimport warningswarnings.filterwarnings('ignore')# 加载数据data = pd.read_csv()# 查看数据基本信息data.head()data.columnsdata.info()data.shape(.原创 2020-12-29 20:09:35 · 405 阅读 · 0 评论 -
Python项目实战-Gensim手动实现LDA算法玩转情感分析
完整版代码,不想放GitHub上了,我怕哪天被墙原创 2020-09-11 22:17:17 · 1053 阅读 · 0 评论 -
Tensorflow2.0实战-Transformer的理解与实现
一、导入库及相关数据(葡萄牙语翻译为英语)import matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineimport numpy as npimport sklearnimport pandas as pdimport osimport sysimport timeimport tensorflow as tffrom tensorflow import keras# 设置gpu内存自增长gpu原创 2020-09-04 07:50:54 · 6777 阅读 · 7 评论 -
Python-Tensorflow2.0项目实战-SequencetoSequence结合注意力机制实现机器翻译
目录一、模型介绍二、数据源及模型目的三、模型实战3.1 导入相关库3.2 模型架构及数据预处理3.3 SequenceToSequence + Attention机制的实现3.4 损失函数的构造及模型训练3.5 模型评估及Attention可视化四、 实战总结一、模型介绍二、数据源及模型目的数据源:API下载地址模型目的:构建Spanish-》English的翻译三、模型实战3.1 导入相关库本实验采取的环境截图如下:[Phys原创 2020-08-24 11:01:35 · 1619 阅读 · 0 评论 -
Python项目实战-CiFar10数据集Tensorflow2.0实现-CNN分类
%matplotlib inlineimport matplotlib as mplimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osimport sklearnimport sysimport tensorflow as tfimport timefrom tensorflow import kerasprint(tf.__version__)print(sys.version.原创 2020-08-12 09:41:50 · 733 阅读 · 0 评论 -
Python项目实战-Tensorflow2.0实现泰坦尼克生存预测
目录一、数据集下载地址二、探索性因子分析(EDA)三、特征工程四、构建Dataset与Modelfit和自定义estimator使用预定义estimator的使用一、数据集下载地址# https:storage.googleapis.com/tf-datasets/titanic/train.csv# https:storage.googleapis.com/tf-datasets/titanic/eval.csv二、探索性因子分析(EDA)import mat原创 2020-08-07 15:46:34 · 803 阅读 · 0 评论 -
Python项目实战-一文搞定Sentiwordnet-NLTK情感分析
'''Date: 20200720Name: Jack ZhaoDescr: 使用NLTK进行情感分析'''# 代码汇总# 导入相关包import pandas as pd import nltk from nltk import word_tokenizefrom nltk.corpus import stopwords from nltk.corpus import sentiwordnet as swn import string # 读取数据data = pd.Data.原创 2020-07-20 21:13:42 · 2066 阅读 · 2 评论 -
Python算法实战-牛客刷题-剑指offer通关
目录二维数组中的查找替换空格从尾到头打印链表重建二叉树用两个栈实现队列旋转数组的最小数字斐波那契数列跳台阶变态跳台阶矩阵覆盖二进制中1的个数数值的整数次方调整数组顺序使奇数位于偶数前面链表中倒数第k个节点反转链表合并两个排序的链表树的子结构二叉树的镜像顺时针打印矩阵包含min函数的栈栈的压入弹出序列从上往下打印二叉树二叉搜索树的后序遍历序列二叉树中和为某一值的路径复杂链表的复制二叉搜索树与双向链表.原创 2020-05-30 12:11:48 · 1187 阅读 · 0 评论 -
数据分析实战-Kaggle-手把手Xgboost信用欺诈检测实例-超详细完整数据分析项目
这个实战并不是我自己纯手写的,其中很多想不明白的地方参考了诸多kaggle金牌得主的discussion和idea,其实数据分析本来就不是从0开始,嘿嘿。原创 2020-05-22 14:45:30 · 6415 阅读 · 1 评论 -
数据分析实战-Kaggle-Twitter情感识别-基于Spacy的语句提取
英文题目:"My ridiculous dog is amazing."[sentiment: positive]With all of the tweets circulating every second it is hard to tell whether the sentiment behind a specific tweet will impact a company, or a person's, brand for being viral (positive), or devast.原创 2020-05-17 16:47:57 · 2025 阅读 · 5 评论 -
Python爬虫项目实战-Scrapy+Charles+MongoDB+Redis实现分布式京东全网信息爬取2020最新版
目录一、基础知识二、开发环境及项目结构三、结果展示四、实战源码4.1 数据模型-items.py4.2 存储操作(以MongoDB为存储数据库)-pipelines.py4.3 项目配置-settings.py4.4 中间件配置-middlewares.py4.5 分类信息抓取-jd_category.py4.6 抓取商品详细信息-jd_product.py4.7 分布式操作的实现-add_category_to_redis.py五、项目使用方法一、.原创 2020-05-14 15:27:00 · 2836 阅读 · 4 评论 -
Python爬虫实战-官方API怎么用?结合Socket实现斗鱼实时弹幕抓取-2020最新API
danmu这个库好像做起来更简单,因为有人把相关功能实现好了,但是本文重在手把手教你如何使用官方API,读懂API文档的内容及Socket原理,还是值得一读。原创 2020-05-12 16:41:57 · 2152 阅读 · 4 评论 -
Python爬虫项目实战-基于Flask、MongoDB异步构建免费高可匿IP池
目录一、基础项目结构及解释二、具体代码实现2.1 采集模块2.2 校验模块2.3 数据模块2.4 检测模块2.5 API模块2.6 工具模块2.7 数据模型、配置文件、主程序三、项目结果展示3.1 数据库展示3.2 Web页面展示(三种,挑选了一个展示)一、基础项目结构及解释代理池目的:当同一个IP对某网站访问次数过多,就会限制IP访问,所以我们需要从网上不稳定的代理IP中抽取高可用IP,供爬虫使用。爬取代理池工作流程:多个代理IP网站-py.原创 2020-05-11 15:26:10 · 2322 阅读 · 2 评论