- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 2021-01-22
# -*- coding: utf-8 -*-"""千万级数据存储内存16G测试 存-2400万数据耗时: xx - xx秒 读-2400万数据耗时: 35 - 39秒思路: 1.压缩 -> 减小内存空间大小: 1.pandas 的DataFrame被设计成可以适应内存, 让系统更好的运行起来 2.将 DataFrame 压缩成字节流 2.分块 -> 大数据切成小份存储: 通过判断数据占
2020-07-01 18:42:37 557
原创 2021-01-22
# -*- coding: utf-8 -*-"""清洗表格"""import numpy as npimport pandas as pdfrom typing import Optionalclass CleanTables: """清洗表格""" @staticmethod def vertical_tables(html_str: str, none_replace: Optional[str] = None,
2020-06-29 21:43:56 141
原创 2021-01-22
# -*- coding: utf-8 -*-"""数据清洗方法"""import pandas as pdimport numpy as npclass CleaningFunction: """" 标准表清洗方法 函数参数说明: initial_name 初始值字段名 target_name 目标值字段名 data_df 数据表(底表) """ def __init__(s
2020-09-23 23:27:53 133
原创 2021-01-22
# -*- coding: utf-8 -*-"""2002.07.29 潘叶舟Python interacts with Hbase参考: <Hbase数据结构>: https://www.bilibili.com/video/BV1Y4411B7jy?p=3 <Python操作Hbase>: https://www.cnblogs.com/hello-wei/p/11936764.html"""import uuidimport jsonimpor
2020-07-29 17:14:53 142
原创 2021-01-22
项目结构main.gopackage mainimport ( "code.cn/Spider/AcademicJournals/AcademicJournals/parser" "code.cn/Spider/AcademicJournals/engine")// AcademicJournals 期刊爬虫// 主模块// 2020.07.14 潘叶舟// 主函数func main() { // 初始url列表 urlList := [...]string{
2020-07-14 23:27:57 166
原创 2021-01-22
项目地址https://gitee.com/Panyezhou/ICantSee原理1.使用RedisCrawlSpider地毯式搜索2.使用正则匹配所有urlr'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]'3.进入消息管道
2020-07-02 12:57:53 124
原创 2021-01-22
分布式爬虫项目结构polyInfo.py# -*- coding: utf-8 -*-"""1.分布式爬虫2002.04.28 潘叶舟爬快了要封号单独一台主机也能运行如果阻塞了 一般都是代理阻塞的 HeadersPoolAndLogin.py 的 s.get(url, headers=headers, proxies=proxies 位置 pipelines.py 的 NIMS_PoLyInfo.middlewares.ProxyDownloadMiddleware
2020-06-30 22:49:38 237
原创 2021-01-22
爬虫项目结构tanyancha.py(spider)# -*- coding: utf-8 -*-""""爬虫2002.06.01 潘叶舟天眼查上市医疗公司信息半自动的...需求要400多条数据很尴尬....验证码就没处理了弹出的第一个页面登录后续弹出的页面出什么点什么..."""import reimport osimport scrapyimport pandas as pdfrom selenium import webdriverfrom TianYanCha_M
2020-06-30 21:44:20 216
原创 2021-01-22
近期的一个小爬虫dovepress.py(spider)# -*- coding: utf-8 -*-"""2002.06.12 潘叶舟爬虫"""import reimport osimport scrapyfrom Dovepress.settings import SOURCEclass DovepressSpider(scrapy.Spider): name = 'dovepress' # allowed_domains = ['www.dovepress.c
2020-06-30 21:20:43 198
原创 2021-01-22
# -*- coding: utf-8 -*-"""定时备份共享文件夹的脚本只支持 linux2002.05.20 潘叶舟"""import osimport reimport shutilimport datetimefrom apscheduler.schedulers.blocking import BlockingSchedulerclass Settings: """ 配置 """ username = 'xxxx'
2020-06-30 21:12:43 129
原创 2021-01-22
# -*- coding: utf-8 -*-"""思路是通过pywin32操作句柄 get_all_hwnd函数遍历Windows搜索窗口找到自己想要的句柄 EnumChildWindows通过窗口父句柄获取窗口子句柄编号, GetWindowText获取句柄名称 SetForegroundWindow将窗口放在前台 字符串发送到剪切板 Ctrl+Z全选(软件里的快捷键) Ctrl+V粘贴pyinstaller -F xxx.py 打包exe
2020-06-30 21:06:01 287
原创 2021-01-22
# -*- coding: utf-8 -*-"""CVS填充工具2002.06.20 潘叶舟pyinstaller -F CSVFilling.py 打包exe如报错RecursionError: import sys sys.setrecursionlimit(100000)"""import osimport datetimeimport progressbarimport numpy as npimport pandas as pdclass CSVFil
2020-06-29 21:45:47 988
原创 2021-01-22
# -*- coding: utf-8 -*-"""读取文件夹中源码"""import osimport refrom multiprocessing import Poolfrom typing import Optionalclass ReadFolderData: """ 读取文件夹下数据 :param process_pool: 进程池数量 """ def __init__(self, proce
2020-06-29 21:45:02 518
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人