- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 2021-01-22
# -*- coding: utf-8 -*- """ 千万级数据存储 内存16G测试 存-2400万数据耗时: xx - xx秒 读-2400万数据耗时: 35 - 39秒 思路: 1.压缩 -> 减小内存空间大小: 1.pandas 的DataFrame被设计成可以适应内存, 让系统更好的运行起来 2.将 DataFrame 压缩成字节流 2.分块 -> 大数据切成小份存储: 通过判断数据占
2020-07-01 18:42:37 548
原创 2021-01-22
# -*- coding: utf-8 -*- """清洗表格""" import numpy as np import pandas as pd from typing import Optional class CleanTables: """清洗表格""" @staticmethod def vertical_tables(html_str: str, none_replace: Optional[str] = None,
2020-06-29 21:43:56 134
原创 2021-01-22
# -*- coding: utf-8 -*- """数据清洗方法""" import pandas as pd import numpy as np class CleaningFunction: """" 标准表清洗方法 函数参数说明: initial_name 初始值字段名 target_name 目标值字段名 data_df 数据表(底表) """ def __init__(s
2020-09-23 23:27:53 126
原创 2021-01-22
# -*- coding: utf-8 -*- """ 2002.07.29 潘叶舟 Python interacts with Hbase 参考: <Hbase数据结构>: https://www.bilibili.com/video/BV1Y4411B7jy?p=3 <Python操作Hbase>: https://www.cnblogs.com/hello-wei/p/11936764.html """ import uuid import json impor
2020-07-29 17:14:53 135
原创 2021-01-22
项目结构 main.go package main import ( "code.cn/Spider/AcademicJournals/AcademicJournals/parser" "code.cn/Spider/AcademicJournals/engine" ) // AcademicJournals 期刊爬虫 // 主模块 // 2020.07.14 潘叶舟 // 主函数 func main() { // 初始url列表 urlList := [...]string{
2020-07-14 23:27:57 154
原创 2021-01-22
项目地址 https://gitee.com/Panyezhou/ICantSee 原理 1.使用RedisCrawlSpider地毯式搜索 2.使用正则匹配所有url r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]' 3.进入消息管道
2020-07-02 12:57:53 117
原创 2021-01-22
分布式爬虫 项目结构 polyInfo.py # -*- coding: utf-8 -*- """ 1.分布式爬虫 2002.04.28 潘叶舟 爬快了要封号 单独一台主机也能运行 如果阻塞了 一般都是代理阻塞的 HeadersPoolAndLogin.py 的 s.get(url, headers=headers, proxies=proxies 位置 pipelines.py 的 NIMS_PoLyInfo.middlewares.ProxyDownloadMiddleware
2020-06-30 22:49:38 230
原创 2021-01-22
爬虫 项目结构 tanyancha.py(spider) # -*- coding: utf-8 -*- """" 爬虫 2002.06.01 潘叶舟 天眼查上市医疗公司信息 半自动的...需求要400多条数据很尴尬....验证码就没处理了 弹出的第一个页面登录 后续弹出的页面出什么点什么... """ import re import os import scrapy import pandas as pd from selenium import webdriver from TianYanCha_M
2020-06-30 21:44:20 205
原创 2021-01-22
近期的一个小爬虫 dovepress.py(spider) # -*- coding: utf-8 -*- """ 2002.06.12 潘叶舟 爬虫 """ import re import os import scrapy from Dovepress.settings import SOURCE class DovepressSpider(scrapy.Spider): name = 'dovepress' # allowed_domains = ['www.dovepress.c
2020-06-30 21:20:43 189
原创 2021-01-22
# -*- coding: utf-8 -*- """ 定时备份共享文件夹的脚本 只支持 linux 2002.05.20 潘叶舟 """ import os import re import shutil import datetime from apscheduler.schedulers.blocking import BlockingScheduler class Settings: """ 配置 """ username = 'xxxx'
2020-06-30 21:12:43 122
原创 2021-01-22
# -*- coding: utf-8 -*- """ 思路是通过pywin32操作句柄 get_all_hwnd函数遍历Windows搜索窗口找到自己想要的句柄 EnumChildWindows通过窗口父句柄获取窗口子句柄编号, GetWindowText获取句柄名称 SetForegroundWindow将窗口放在前台 字符串发送到剪切板 Ctrl+Z全选(软件里的快捷键) Ctrl+V粘贴 pyinstaller -F xxx.py 打包exe
2020-06-30 21:06:01 280
原创 2021-01-22
# -*- coding: utf-8 -*- """ CVS填充工具 2002.06.20 潘叶舟 pyinstaller -F CSVFilling.py 打包exe 如报错RecursionError: import sys sys.setrecursionlimit(100000) """ import os import datetime import progressbar import numpy as np import pandas as pd class CSVFil
2020-06-29 21:45:47 980
原创 2021-01-22
# -*- coding: utf-8 -*- """ 读取文件夹中源码 """ import os import re from multiprocessing import Pool from typing import Optional class ReadFolderData: """ 读取文件夹下数据 :param process_pool: 进程池数量 """ def __init__(self, proce
2020-06-29 21:45:02 509
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人