自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021-01-22

# -*- coding: utf-8 -*- """ 千万级数据存储 内存16G测试 存-2400万数据耗时: xx - xx秒 读-2400万数据耗时: 35 - 39秒 思路: 1.压缩 -> 减小内存空间大小: 1.pandas 的DataFrame被设计成可以适应内存, 让系统更好的运行起来 2.将 DataFrame 压缩成字节流 2.分块 -> 大数据切成小份存储: 通过判断数据占

2020-07-01 18:42:37 548

原创 2021-01-22

# -*- coding: utf-8 -*- """清洗表格""" import numpy as np import pandas as pd from typing import Optional class CleanTables: """清洗表格""" @staticmethod def vertical_tables(html_str: str, none_replace: Optional[str] = None,

2020-06-29 21:43:56 134

原创 2021-01-22

# -*- coding: utf-8 -*- """数据清洗方法""" import pandas as pd import numpy as np class CleaningFunction: """" 标准表清洗方法 函数参数说明: initial_name 初始值字段名 target_name 目标值字段名 data_df 数据表(底表) """ def __init__(s

2020-09-23 23:27:53 126

原创 2021-01-22

# -*- coding: utf-8 -*- """ 2002.07.29 潘叶舟 Python interacts with Hbase 参考: <Hbase数据结构>: https://www.bilibili.com/video/BV1Y4411B7jy?p=3 <Python操作Hbase>: https://www.cnblogs.com/hello-wei/p/11936764.html """ import uuid import json impor

2020-07-29 17:14:53 135

原创 2021-01-22

项目结构 main.go package main import ( "code.cn/Spider/AcademicJournals/AcademicJournals/parser" "code.cn/Spider/AcademicJournals/engine" ) // AcademicJournals 期刊爬虫 // 主模块 // 2020.07.14 潘叶舟 // 主函数 func main() { // 初始url列表 urlList := [...]string{

2020-07-14 23:27:57 154

原创 2021-01-22

项目地址 https://gitee.com/Panyezhou/ICantSee 原理 1.使用RedisCrawlSpider地毯式搜索 2.使用正则匹配所有url r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]' 3.进入消息管道

2020-07-02 12:57:53 117

原创 2021-01-22

分布式爬虫 项目结构 polyInfo.py # -*- coding: utf-8 -*- """ 1.分布式爬虫 2002.04.28 潘叶舟 爬快了要封号 单独一台主机也能运行 如果阻塞了 一般都是代理阻塞的 HeadersPoolAndLogin.py 的 s.get(url, headers=headers, proxies=proxies 位置 pipelines.py 的 NIMS_PoLyInfo.middlewares.ProxyDownloadMiddleware

2020-06-30 22:49:38 230

原创 2021-01-22

爬虫 项目结构 tanyancha.py(spider) # -*- coding: utf-8 -*- """" 爬虫 2002.06.01 潘叶舟 天眼查上市医疗公司信息 半自动的...需求要400多条数据很尴尬....验证码就没处理了 弹出的第一个页面登录 后续弹出的页面出什么点什么... """ import re import os import scrapy import pandas as pd from selenium import webdriver from TianYanCha_M

2020-06-30 21:44:20 205

原创 2021-01-22

近期的一个小爬虫 dovepress.py(spider) # -*- coding: utf-8 -*- """ 2002.06.12 潘叶舟 爬虫 """ import re import os import scrapy from Dovepress.settings import SOURCE class DovepressSpider(scrapy.Spider): name = 'dovepress' # allowed_domains = ['www.dovepress.c

2020-06-30 21:20:43 189

原创 2021-01-22

# -*- coding: utf-8 -*- """ 定时备份共享文件夹的脚本 只支持 linux 2002.05.20 潘叶舟 """ import os import re import shutil import datetime from apscheduler.schedulers.blocking import BlockingScheduler class Settings: """ 配置 """ username = 'xxxx'

2020-06-30 21:12:43 122

原创 2021-01-22

# -*- coding: utf-8 -*- """ 思路是通过pywin32操作句柄 get_all_hwnd函数遍历Windows搜索窗口找到自己想要的句柄 EnumChildWindows通过窗口父句柄获取窗口子句柄编号, GetWindowText获取句柄名称 SetForegroundWindow将窗口放在前台 字符串发送到剪切板 Ctrl+Z全选(软件里的快捷键) Ctrl+V粘贴 pyinstaller -F xxx.py 打包exe

2020-06-30 21:06:01 280

原创 2021-01-22

# -*- coding: utf-8 -*- """ CVS填充工具 2002.06.20 潘叶舟 pyinstaller -F CSVFilling.py 打包exe 如报错RecursionError: import sys sys.setrecursionlimit(100000) """ import os import datetime import progressbar import numpy as np import pandas as pd class CSVFil

2020-06-29 21:45:47 980

原创 2021-01-22

# -*- coding: utf-8 -*- """ 读取文件夹中源码 """ import os import re from multiprocessing import Pool from typing import Optional class ReadFolderData: """ 读取文件夹下数据 :param process_pool: 进程池数量 """ def __init__(self, proce

2020-06-29 21:45:02 509

ReadRedisDataFrame.py附件

ReadRedisDataFrame.py附件。严禁用于商业用途!!!

2020-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除