![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
IT 、 python编程
爬虫炫神
这个作者很懒,什么都没留下…
展开
-
利用 GitHub 连接本地、远程仓库
使用github上传本地** 一、为Github账户添加SSH key**1.ssh key 基础知识扫盲:加密传输的算法有好多,git使用rsa,rsa要解决的一个核心问题是,如何使用一对特定的数字,使其中一个数字可以用来加密,而另外一个数 字可以用来解密。这两个 数字就是你在使用git和github的时候所遇到的public key也就是公钥以及private key私钥。公...原创 2019-04-16 19:17:02 · 253 阅读 · 2 评论 -
工商企业大数据爬虫系统
聊一聊天某查+企某查+启某宝+企某猫和全国源站工商企业大数据爬虫系统Python爬虫-2018年-我破解天某查和启某宝企业数据爬虫--破解反爬技术那些事情 最近在自己用python+mongdb写了一套分布式多线程的天眼查爬虫系统,实现了对天某查整个网站的全部数据各种维度的采集和存储,并且根据天某查网页的数据结构建立了19个表来存储19个维度的数据,很多做技术的朋友在爬天某查的时候...原创 2019-05-24 14:23:28 · 4066 阅读 · 4 评论 -
Python3 迭代器与生成器
Python3 迭代器与生成器一、迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。 迭代器是一个可以记住遍历的位置的对象。 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。 迭代器有两个基本的方法:iter()和next()。 字符串,列表或元组对象都可用于创建迭代器:二、实例(Python 3.0+)>...原创 2019-05-16 14:03:48 · 83 阅读 · 0 评论 -
Python 资源大全中文版
Python 资源大全中文版我想 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-python是 vinta 发起维护的 Python 资源列表,内容包括:Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。由伯乐在线持续更新。Awesome 系列虽然挺全,但基本只对收录的资...转载 2019-05-23 14:53:30 · 197 阅读 · 0 评论 -
Beautiful Soup 4 的安装与使用
Beautiful Soup 4.2.0 的安装与使用文档Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.通过你喜欢的转换器处理文档。另外查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.文档中出现的例子在Python2.7和Python3.2中的执行结果相同Beautiful Soup 3 目前已...原创 2019-05-23 21:16:07 · 837 阅读 · 0 评论 -
Python-爬虫工程师-面试题 一
Python-爬虫工程师-面试题 一1、对__if__name__ == 'main'的理解 ?__name__是当前模块名,当模块被直接运行时模块名为_main_,也就是当前的模块,当模块被导入时,模块名就不是__main__,即代码将不会执行。2、python是如何进行内存管理的?a、对象的引用计数机制python内部使用引用计数,来保持追踪内存中的对象,Pyth...原创 2019-05-24 11:18:36 · 312 阅读 · 0 评论 -
Kafka入门简介
Kafka入门简介什么是Kafka?Kafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish(发布)或者subscribe(订阅)消息,分布式提供了容错性,并发处理消息的机制。Kafka的基本概念?kafka运行在集群上,集群包含一个或多个服务器。 kafka把消息存在topic中,每一条消息包含键值(key),值(value)和时间戳(time...原创 2019-07-16 11:55:51 · 188 阅读 · 0 评论 -
网络管理人员使用xmanager power suite 6会话管理工具的安装
xmanager power suite 6会话管理工具的安装xmanager power suite 6是一款功能强大的会话管理工具,主要适用于网络管理人员使用,可以轻松连接远程服务器时行各种操作,拥有人性化的操作界面,支持对话进行创建、编辑、删除或者同时启动多个会话操作,能够大大地提高管理人员的效率,节省对应的时间。包含产品1、XbrowserXbrowser使用xdcmp...原创 2019-05-10 10:44:19 · 2102 阅读 · 0 评论 -
阿里云ubuntu 16.04安装图形界面
阿里云ubuntu 16.04安装图形界面一. VNC的安装与配置 1. 安装之前先输入 apt-get update# 获取最新套件的信息。1.2 2. 输入以下命令安装VNC,安装过程中需要输入Y来确认 apt-get install vnc4server3. 启动VNCvncserver# 并设置密码看到 ...原创 2019-05-10 09:51:33 · 1073 阅读 · 1 评论 -
apt-get 介绍 与 使用
apt-get介绍 与 使用apt-get,是一条linux命令,适用于deb包管理式的操作系统,主要用于自动从互联网的软件仓库中搜索、安装、升级、卸载软件或操作系统。中文名 apt-get 类型 管理工具 包括 搜索、安装、升级、卸载 属于 linux命令 ...原创 2019-05-10 09:40:54 · 782 阅读 · 0 评论 -
用Python之 生产者消费者模式
用Python多线程实现生产者消费者模式前言 在软件开发的过程中,经常碰到这样的场景: 某些模块负责生产数据,这些数据由其他模块来负责处理(此处的模块可能是:函数、线程、进程等)。一、什么是生产者消费者模式 1. 产生数据的模块称为生产者, 2. 处理数据的模块称为消费者。 3. 在生产者与消费者之间的缓冲区称之...原创 2019-04-22 10:48:30 · 485 阅读 · 0 评论 -
实现将 1-N 的整数列表以 3 为单位分组,比如 1-100分组后为
问题:请尝试用“一行代码”实现将 1-N 的整数列表以 3 为单位分组,比如 1-100分组后为?# 方式一 =========》 正常分析代码过程a=[i for i in range(1,100)]# 准备列表数据。for i in range(0,100,3):# 结束下标范围 print(a[i:i+3])# 输出分组结果。# 方式二 =========》 一行...原创 2019-04-22 11:41:51 · 1037 阅读 · 0 评论 -
如何在Ubuntu 18.04中安装MySQL 8.0数据库服务器
第1步:添加MySQL Apt存储库目前已经有了现成可用于安装 MySQL Server、客户端和其它组件的 APT 存储库,我们需要先将 MySQL 存储库添加到 Ubuntu 18.04 的软件包源列表中:1、先使用 wget 下载存储库软件包:wget -c https://dev.mysql.com/get/mysql-apt-config_0.8.10-1_all.deb...原创 2019-05-09 16:16:16 · 708 阅读 · 0 评论 -
navicat链接阿里云mysql报80070007错误解决方案
navicat链接阿里云mysql报80070007: SSH Tunnel: Server does not support diffie-hellman-group1-sha1 for keyexchangenavicat 链接数据库使用navicat 的ssh通道连接数据库回遇到权限问题错误代码如下:80070007: SSH Tunnel: Server does n...原创 2019-05-09 17:03:51 · 1294 阅读 · 1 评论 -
Ubuntu安装MongoDB的安装和使用
Ubuntu安装MongoDB的安装和使用本博文介绍了MongoDB,并详细指引读者在Ubuntu下MongoDB的安装和使用。本教程在Ubuntu16.04下测试通过。一、MongoDB介绍MongoDB 是一个是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因...原创 2019-05-09 19:45:18 · 276 阅读 · 0 评论 -
Python爬虫信息爬取
Python爬虫:网络信息爬取与处理知识梳理一、HTTP协议1. 应用层协议无状态:每次连接,传输都是独立的无连接:每次连接只处理一个请求2. HTTP请求GET:没有request bodyPOST: 有request body3.HTTP状态码2xx:成功3xx:跳转4xx: 客户端错误403 Forbidden 没有登录,或ip被封5xx:服务端错误py...转载 2019-05-07 11:02:08 · 259 阅读 · 0 评论 -
Python 中文分词模块 JieBa
Python第三方库jieba(中文分词)入门与进阶(官方文档)jieba“结巴”中文分词:做最好的 Python 中文分词组件github:https://github.com/fxsjy/jieba特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; ...原创 2019-09-06 09:44:32 · 951 阅读 · 1 评论