Python
L~e~a~f
这个作者很懒,什么都没留下…
展开
-
2021-01-22
# -*- coding: utf-8 -*- """数据清洗方法""" import pandas as pd import numpy as np class CleaningFunction: """" 标准表清洗方法 函数参数说明: initial_name 初始值字段名 target_name 目标值字段名 data_df 数据表(底表) """ def __init__(s原创 2020-09-23 23:27:53 · 126 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ 2002.07.29 潘叶舟 Python interacts with Hbase 参考: <Hbase数据结构>: https://www.bilibili.com/video/BV1Y4411B7jy?p=3 <Python操作Hbase>: https://www.cnblogs.com/hello-wei/p/11936764.html """ import uuid import json impor原创 2020-07-29 17:14:53 · 135 阅读 · 0 评论 -
2021-01-22
项目地址 https://gitee.com/Panyezhou/ICantSee 原理 1.使用RedisCrawlSpider地毯式搜索 2.使用正则匹配所有url r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]' 3.进入消息管道原创 2020-07-02 12:57:53 · 117 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ 千万级数据存储 内存16G测试 存-2400万数据耗时: xx - xx秒 读-2400万数据耗时: 35 - 39秒 思路: 1.压缩 -> 减小内存空间大小: 1.pandas 的DataFrame被设计成可以适应内存, 让系统更好的运行起来 2.将 DataFrame 压缩成字节流 2.分块 -> 大数据切成小份存储: 通过判断数据占原创 2020-07-01 18:42:37 · 548 阅读 · 0 评论 -
2021-01-22
分布式爬虫 项目结构 polyInfo.py # -*- coding: utf-8 -*- """ 1.分布式爬虫 2002.04.28 潘叶舟 爬快了要封号 单独一台主机也能运行 如果阻塞了 一般都是代理阻塞的 HeadersPoolAndLogin.py 的 s.get(url, headers=headers, proxies=proxies 位置 pipelines.py 的 NIMS_PoLyInfo.middlewares.ProxyDownloadMiddleware原创 2020-06-30 22:49:38 · 230 阅读 · 0 评论 -
2021-01-22
爬虫 项目结构 tanyancha.py(spider) # -*- coding: utf-8 -*- """" 爬虫 2002.06.01 潘叶舟 天眼查上市医疗公司信息 半自动的...需求要400多条数据很尴尬....验证码就没处理了 弹出的第一个页面登录 后续弹出的页面出什么点什么... """ import re import os import scrapy import pandas as pd from selenium import webdriver from TianYanCha_M原创 2020-06-30 21:44:20 · 205 阅读 · 0 评论 -
2021-01-22
近期的一个小爬虫 dovepress.py(spider) # -*- coding: utf-8 -*- """ 2002.06.12 潘叶舟 爬虫 """ import re import os import scrapy from Dovepress.settings import SOURCE class DovepressSpider(scrapy.Spider): name = 'dovepress' # allowed_domains = ['www.dovepress.c原创 2020-06-30 21:20:43 · 189 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ 定时备份共享文件夹的脚本 只支持 linux 2002.05.20 潘叶舟 """ import os import re import shutil import datetime from apscheduler.schedulers.blocking import BlockingScheduler class Settings: """ 配置 """ username = 'xxxx'原创 2020-06-30 21:12:43 · 122 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ 思路是通过pywin32操作句柄 get_all_hwnd函数遍历Windows搜索窗口找到自己想要的句柄 EnumChildWindows通过窗口父句柄获取窗口子句柄编号, GetWindowText获取句柄名称 SetForegroundWindow将窗口放在前台 字符串发送到剪切板 Ctrl+Z全选(软件里的快捷键) Ctrl+V粘贴 pyinstaller -F xxx.py 打包exe原创 2020-06-30 21:06:01 · 280 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ CVS填充工具 2002.06.20 潘叶舟 pyinstaller -F CSVFilling.py 打包exe 如报错RecursionError: import sys sys.setrecursionlimit(100000) """ import os import datetime import progressbar import numpy as np import pandas as pd class CSVFil原创 2020-06-29 21:45:47 · 980 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """ 读取文件夹中源码 """ import os import re from multiprocessing import Pool from typing import Optional class ReadFolderData: """ 读取文件夹下数据 :param process_pool: 进程池数量 """ def __init__(self, proce原创 2020-06-29 21:45:02 · 509 阅读 · 0 评论 -
2021-01-22
# -*- coding: utf-8 -*- """清洗表格""" import numpy as np import pandas as pd from typing import Optional class CleanTables: """清洗表格""" @staticmethod def vertical_tables(html_str: str, none_replace: Optional[str] = None,原创 2020-06-29 21:43:56 · 134 阅读 · 0 评论