- 博客(7)
- 收藏
- 关注
原创 Python爬取天猫店铺的企业名1:根据店铺名获得店铺链接
2020年12月31日更新项目说明:最近遇到一个项目,项目需求大致是这样的:有一批天猫店铺名,需要根据店铺名获得店铺的认证企业名。项目分析:这个项目可以分为以下几个步骤:1、根据店铺名搜索获取店铺的链接2、从店铺链接查看资质证书,需要验证码识别,这里采用打码平台,当然可以自行训练3、下载资质证书图片4、图片识别环境Python、Chrome、pillow、Tesseract、打码平台、Mysql我是把所有店铺统一搜索完之后再进行下一步的操作天...
2020-12-31 13:55:23 900 1
原创 Python requests爬取淘宝商品信息
作者:achen联系方式:wh909077093这里记一下大概的思路以及实现方法,有基础的小伙伴看了基本就能实现了,如果有业务需要可以联系我哈哈哈哈哈哈项目内容指定关键词爬取淘宝上商品标题-价格-销量-店铺-地区爬取测试关键词是「防伪」,排序规则选择为总价「由低到高」项目起因最近接了一单,需要爬取某地区所有的天猫店铺,于是博主用十来个账号对各个关键词进行了疯狂的扫描,终于扫出来了几万个店铺名~~项目步骤1、手动登录淘宝,拿到几个关键参数userna...
2020-09-01 17:28:27 2687 2
原创 从零部署CDH5.14.0(二)集群安装
一、配置同步脚本xsync,所有节点安装工具rsyncyum -y install xsync以hadoop001为主节点,配置xsync[root@hadoop001 ]# vi /usr/local/bin/xsync#!/bin/shpcount=$#if((pcount==0)); then echo no args...; exit;fi# 获取文件名称p1=$1fname=`basename $p1`echo fname=$...
2020-05-15 15:20:49 280
原创 从零部署CDH5.14.0(一)环境准备
最近在学习CDH,这里记录一下CDH的搭建步骤一、版本选择1、操作系统 Centos72、Cloudera Manager5.14.0采用rpm包,后续测试升级到6.2,我在官网发现6以后好像没有提供二进制包,如果有同学知道,希望可以留言告知。下载地址http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.14.0/RPMS/x86_64/3、CDH5.14.0下载地址http://archive.cloudera.com/...
2020-05-15 10:23:33 772
原创 CDH5.15.1开启kerberos后YARN nodemanager无法启动问题
CDH5.15.1开启kerberos后Nodemanager死活起不来。报错信息如下2020-05-11 15:52:49,488 INFO org.apache.hadoop.service.AbstractService: Service NodeManager failed in state INITED; cause: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Failed to initialize container
2020-05-11 16:49:50 783
原创 CDH5.15.1中Hue集成Hdfs和Hbase
一、集成HDFS1、问题描述打开Hue的web界面,出现报错Cannot access: /user/hue. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS2、解决办法,安全性待确认usermod -aG hdfs hueusermod -aG hadoop hue...
2020-04-23 17:43:38 374
原创 Pandas计算EMA、MACD、布林线
1、获取K线数据上一篇博客:OKEX获取期货k线数据 中已经介绍2、计算EMA指标import pandas as pddf = ****** #具体数据与格式见上篇文章paras = [7, 9]for para in paras: df['EMA_' + str(para)] = pd.DataFrame.ewm(df['close'], span=para...
2020-04-16 17:46:20 10734
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人