文章
TinlokLee
这个作者很懒,什么都没留下…
展开
-
VSCode 创建并使用虚拟环境
1 vs code创建并使用虚拟环境安装:pip install virtualenv创建:virtualenv xxxorvirtualenv --system-site-packages xxx # 创建环境,继承原安装的模块使用:command+Shiht+P 搜索:Python: Select Interpreter 选择 xxx退出:deactivate...原创 2020-06-20 17:14:03 · 3993 阅读 · 0 评论 -
VScode 文件相对路径解决方案
vs code下运行python 脚本报错:FileNotFoundError: [Errno 2] No such file or directory: './xxx.py'原因:vs code 运行python文件,默认打开的是当前工作区的根路径,运行该工作区子文件夹中py文件,因含有相对路径,则报错。网上解决方案:配置launch.json 文件添加 “cwd”: “${fileDirname}”or设置–terminal–python–勾选Execute In File Dir亲测原创 2020-06-15 11:22:57 · 7480 阅读 · 3 评论 -
FastAPI
原文:https://fastapi.tiangolo.com/alternatives/作者:tiangolo,FastAPI 的创作者,github star 10.1k翻译:somenzz侵删本文讲述了什么启发了 FastAPI 的诞生,它与其他替代框架的对比,以及从中汲取的经验。简介如果不是基于前人的成果,FastAPI 将不会存在。在 FastAPI 之前,前人已经创建了许多工具 。几年来,我一直在避免创建新框架。首先,我尝试使用许多不同的框架,插件和工具来解决 FastAPI 涵盖的所有功能。但转载 2020-06-11 16:58:27 · 1814 阅读 · 0 评论 -
分布式架构工程设计
背景有数据需求。数据市场上没有,或者不愿意购买,自己动手丰衣足食。一、爬虫常见挑战(痛点)1. 草率而且总是在变的网站格式(运维)在规模化提取数据时面临的最头疼的挑战。不难,但要投入的时间和资源。 永远做好准备:你的目标网站每隔2到3个月就会发生让你的爬虫工作不了的情况。 1)爬虫需要小组。新旧需求是同时开工。2)爬虫可配置性越强越好2. 没人知道明天要爬什么(可伸...转载 2020-04-08 16:54:24 · 2796 阅读 · 0 评论 -
Scrapy 循环顺序运行多个任务
基于 Scrapy 框架扩展,循环顺序执行多个任务# -*- coding: utf-8 -*-from scrapy.cmdline import executeimport sysimport osimport timedef run(): # 根据业务需求自定义设置每个任务运行时间,CLOSESPIDER_TIMEOUT while 1: o...原创 2020-03-31 12:13:47 · 2161 阅读 · 0 评论 -
CSDN 排名前十大佬
TOP10:https://blog.csdn.net/hejishanTOP 9:https://blog.csdn.net/21aspnetTOP 8:https://blog.csdn.net/troubleshooterTOP 7:https://blog.csdn.net/dyllove98TOP 6:https://blog.csdn.net/tianlesoftwareT...原创 2020-03-26 12:25:03 · 2930 阅读 · 1 评论 -
【删库跑路】使用Binlog日志恢复误删的MySQL数据
前言“删库跑路”是程序员经常谈起的话题,今天,我就要教大家如何删!库!跑!路!开个玩笑,今天文章的主题是如何使用Mysql内置的Binlog日志对误删的数据进行恢复,读完本文,你能够了解到:MySQL的binlog日志是什么?通常是用来干什么的?模拟一次误删数据的操作,并且使用binlog日志恢复误删的数据。写这篇文章的初衷,是有一次我真的险些把测试数据库的一张表给删除了,当时吓...转载 2020-02-27 11:47:39 · 1628 阅读 · 1 评论 -
Mac 下ChromeDriver安装配置使用,附ChromeDriver与Chrome版本对应参照表及下载链接
ChromeDriver VersionChrome Version78.0.3904.117877.0.3865.407777.0.3865.107776.0.3809.1267676.0.3809.687676.0.3809.257676.0.3809.127675.0.3770.907575.0.3770.8...原创 2020-02-09 20:45:13 · 2310 阅读 · 0 评论 -
最全知乎专栏合集:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL...
上一篇文章《爬取11088个知乎专栏,打破发现壁垒》里提到,知乎官方没有搜素专栏的功能,于是我通过爬取几十万用户个人主页所关注的专栏从而获取到11088个知乎专栏。本回筛选出其中涉及:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等关键词的专栏,按照排名、关注人数、专栏名称、专栏简介等顺序,罗列出史上最全专栏合集,以供大家顺藤摸瓜、前去观摩和学习。筛选出来的专栏数据和全部11088个...转载 2020-02-04 16:45:53 · 3030 阅读 · 0 评论 -
Python爬虫100个入门项目
淘宝模拟登录 天猫商品数据爬虫 爬取淘宝我已购买的宝贝数据 每天不同时间段通过微信发消息提醒女友 爬取5K分辨率超清唯美壁纸 爬取豆瓣排行榜电影数据(含GUI界面版) 多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架) 一键生成微信个人专属数据报告(了解你的微信社交历史) 一键生成QQ个人历史报告 微信公众号文章爬虫 新浪微博爬虫分享(一天可抓取 1300 万条数据) 新浪微博分布式爬虫分...转载 2020-02-03 17:33:55 · 10363 阅读 · 4 评论 -
大规模数据采集流程和思路
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。系统的大规模爬虫流程如图所示。先检查是否有APIAPI是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内采集,这样既不会有道德法律风险,也没有网站故意设置的障碍;不过调用API接口的访问则处于...转载 2020-02-03 13:13:06 · 4922 阅读 · 0 评论 -
综合对比 Kafka、RabbitMQ、RocketMQ、ActiveMQ 四个分布式消息队列
本文将从,Kafka、RabbitMQ、ZeroMQ、RocketMQ、ActiveMQ 17 个方面综合对比作为消息队列使用时的差异。一、资料文档Kafka:中。有kafka作者自己写的书,网上资料也有一些。rabbitmq:多。有一些不错的书,网上资料多。zeromq:少。没有专门写zeromq的书,网上的资料多是一些代码的实现和简单介绍。rocketmq:少。没有专门写rocketmq的...翻译 2020-01-18 22:05:37 · 1284 阅读 · 0 评论 -
《吐血整理》顶级大佬学习方法
2019年的春节来的似乎格外的早,过完年相信很多童鞋都开始蠢蠢欲动了;笔者总结了多篇教程,结合平时自己的面试经历,整理了这份文档,希望帮助大家来突击一下前端知识的盲区。文章很长很长很长。。。。(建议先收藏,技术大佬请Ctrl+F4,面向基础)整理不易,希望大家关注公众号【前端壹读】,更多前端原创好文等着你。一、CSS盒模型 CSS盒模型本质上是一个盒子,封装周围的HTML元素,它包括...转载 2020-01-04 22:02:56 · 1609 阅读 · 0 评论 -
GitHub 标星 1.6w+,我发现了一个宝藏项目,作为编程新手有福了!
特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩,另一方面是一直在搞 ACM,没有做一些工程类的项目,所以想当然的以为和 GitHub 也没什么关系(当然这种想法是错误的)。后来自己花了一个星期看完了 Python 的基础知识,就想着找点项目看一看,学一学,练一练,这个时候我才真正的去了解...转载 2019-11-29 18:56:22 · 1339 阅读 · 0 评论