自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021-01-22

# -*- coding: utf-8 -*-"""千万级数据存储内存16G测试 存-2400万数据耗时: xx - xx秒 读-2400万数据耗时: 35 - 39秒思路: 1.压缩 -> 减小内存空间大小: 1.pandas 的DataFrame被设计成可以适应内存, 让系统更好的运行起来 2.将 DataFrame 压缩成字节流 2.分块 -> 大数据切成小份存储: 通过判断数据占

2020-07-01 18:42:37 557

原创 2021-01-22

# -*- coding: utf-8 -*-"""清洗表格"""import numpy as npimport pandas as pdfrom typing import Optionalclass CleanTables: """清洗表格""" @staticmethod def vertical_tables(html_str: str, none_replace: Optional[str] = None,

2020-06-29 21:43:56 141

原创 2021-01-22

# -*- coding: utf-8 -*-"""数据清洗方法"""import pandas as pdimport numpy as npclass CleaningFunction: """" 标准表清洗方法 函数参数说明: initial_name 初始值字段名 target_name 目标值字段名 data_df 数据表(底表) """ def __init__(s

2020-09-23 23:27:53 133

原创 2021-01-22

# -*- coding: utf-8 -*-"""2002.07.29 潘叶舟Python interacts with Hbase参考: <Hbase数据结构>: https://www.bilibili.com/video/BV1Y4411B7jy?p=3 <Python操作Hbase>: https://www.cnblogs.com/hello-wei/p/11936764.html"""import uuidimport jsonimpor

2020-07-29 17:14:53 142

原创 2021-01-22

项目结构main.gopackage mainimport ( "code.cn/Spider/AcademicJournals/AcademicJournals/parser" "code.cn/Spider/AcademicJournals/engine")// AcademicJournals 期刊爬虫// 主模块// 2020.07.14 潘叶舟// 主函数func main() { // 初始url列表 urlList := [...]string{

2020-07-14 23:27:57 166

原创 2021-01-22

项目地址https://gitee.com/Panyezhou/ICantSee原理1.使用RedisCrawlSpider地毯式搜索2.使用正则匹配所有urlr'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]'3.进入消息管道

2020-07-02 12:57:53 124

原创 2021-01-22

分布式爬虫项目结构polyInfo.py# -*- coding: utf-8 -*-"""1.分布式爬虫2002.04.28 潘叶舟爬快了要封号单独一台主机也能运行如果阻塞了 一般都是代理阻塞的 HeadersPoolAndLogin.py 的 s.get(url, headers=headers, proxies=proxies 位置 pipelines.py 的 NIMS_PoLyInfo.middlewares.ProxyDownloadMiddleware

2020-06-30 22:49:38 237

原创 2021-01-22

爬虫项目结构tanyancha.py(spider)# -*- coding: utf-8 -*-""""爬虫2002.06.01 潘叶舟天眼查上市医疗公司信息半自动的...需求要400多条数据很尴尬....验证码就没处理了弹出的第一个页面登录后续弹出的页面出什么点什么..."""import reimport osimport scrapyimport pandas as pdfrom selenium import webdriverfrom TianYanCha_M

2020-06-30 21:44:20 216

原创 2021-01-22

近期的一个小爬虫dovepress.py(spider)# -*- coding: utf-8 -*-"""2002.06.12 潘叶舟爬虫"""import reimport osimport scrapyfrom Dovepress.settings import SOURCEclass DovepressSpider(scrapy.Spider): name = 'dovepress' # allowed_domains = ['www.dovepress.c

2020-06-30 21:20:43 198

原创 2021-01-22

# -*- coding: utf-8 -*-"""定时备份共享文件夹的脚本只支持 linux2002.05.20 潘叶舟"""import osimport reimport shutilimport datetimefrom apscheduler.schedulers.blocking import BlockingSchedulerclass Settings: """ 配置 """ username = 'xxxx'

2020-06-30 21:12:43 129

原创 2021-01-22

# -*- coding: utf-8 -*-"""思路是通过pywin32操作句柄 get_all_hwnd函数遍历Windows搜索窗口找到自己想要的句柄 EnumChildWindows通过窗口父句柄获取窗口子句柄编号, GetWindowText获取句柄名称 SetForegroundWindow将窗口放在前台 字符串发送到剪切板 Ctrl+Z全选(软件里的快捷键) Ctrl+V粘贴pyinstaller -F xxx.py 打包exe

2020-06-30 21:06:01 287

原创 2021-01-22

# -*- coding: utf-8 -*-"""CVS填充工具2002.06.20 潘叶舟pyinstaller -F CSVFilling.py 打包exe如报错RecursionError: import sys sys.setrecursionlimit(100000)"""import osimport datetimeimport progressbarimport numpy as npimport pandas as pdclass CSVFil

2020-06-29 21:45:47 988

原创 2021-01-22

# -*- coding: utf-8 -*-"""读取文件夹中源码"""import osimport refrom multiprocessing import Poolfrom typing import Optionalclass ReadFolderData: """ 读取文件夹下数据 :param process_pool: 进程池数量 """ def __init__(self, proce

2020-06-29 21:45:02 518

ReadRedisDataFrame.py附件

ReadRedisDataFrame.py附件。严禁用于商业用途!!!

2020-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除