![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python网络爬虫
文章平均质量分 51
工匠小能手
顺境时善待他人,逆境时善待自己
展开
-
【Python学习笔记1】Python网络爬虫初体验
本文的信息来源于 韦玮老师的《精通Python网络爬虫》 ,仅作为个人学习笔记。【实验目的】通过爬取一个网页的标题,来了解网络爬虫的基本原理和代码,并了解正则表达式基础和xpath基础。 【学习笔记】1、正则表达式基础详细的正则表达式教程可参考:http://www.runoob.com/regexp/regexp-syntax.html (和使用哪种语言无关)pyt...原创 2018-10-28 16:07:36 · 467 阅读 · 0 评论 -
【python爬虫】python3.7+selenum 3.7 获取网页标签的属性值和文本
【工具安装】https://blog.csdn.net/qq_39295735/article/details/84558545【xpath用法】http://www.cnblogs.com/hhh5460/p/5079465.htmlhttps://www.cnblogs.com/hanmk/p/8997786.htmlxpath获取同级元素 http://www.cnblogs.com...原创 2018-12-03 23:12:46 · 1849 阅读 · 0 评论 -
【python爬虫】python3.7 安装lxml 4.2过程
1、确认当前使用的python版本,本人使用的64位+Win10+python3.72、下载对应版本的lxml插件,本人使用的是 lxml-4.2.5-cp37-cp37m-win_amd64.whl 下载地址:https://pypi.org/project/lxml/3、安装whl文件类型的安装工具,在windows命令行执行pip install wheel。如果提示错误,是...原创 2018-12-03 23:12:57 · 6052 阅读 · 0 评论 -
【python爬虫】安装python 3.7+selenium 3.7网页自动化测试的环境
核心参考文献:https://blog.csdn.net/tyx199397/article/details/79268111https://blog.csdn.net/u013250071/article/details/78803230https://www.cnblogs.com/sandysun/p/7838113.html手动安装如下 软件版本:python 3.7.1 ...原创 2018-11-26 23:36:40 · 2318 阅读 · 0 评论 -
【mysql数据库】通过python 3.7 爬虫获取企查查公开的企业信息,并记录到数据库
1、爬虫的思路参考这篇博文https://mp.csdn.net/postedit/836285872、数据库保存截图如下3、python代码如下#!/usr/bin/python3#-*- coding: utf-8 -*-import urllib.requestimport reimport pymysql#记录公司信息的字典,类似C语言的结构体#字典中...原创 2018-11-26 01:08:19 · 8305 阅读 · 9 评论 -
【mysql数据库】通过python 3.7 爬虫获取重庆智博会上重庆本地的参会企业,并记录到mysql数据库中
1、爬虫思路参考这篇博文https://blog.csdn.net/qq_39295735/article/details/835398532、数据库保存结果如下(篇幅有限,仅部分截图)3、python代码如下#!/usr/bin/python3#-*- coding: utf-8 -*-import urllib.requestimport reimport pymy...原创 2018-11-25 17:50:49 · 267 阅读 · 0 评论 -
【Python爬虫实战】获取糗事百科上面的笑话并保存至腾讯云对象存储COS中
目的:体验一下腾讯云对象存储COS的SDK开发工具。结果:代码如下:#!/usr/bin/python3#-*- coding: utf-8 -*-#网络爬虫所需的插件import urllib.requestimport re#腾讯云对象存储所需的插件from qcloud_cos import CosConfigfrom qcloud_cos import ...原创 2018-11-14 23:08:09 · 393 阅读 · 0 评论 -
【Python爬虫实战】获取糗事百科上面的笑话
目的:获取糗事百科的笑话,并保存为文件。结果:代码如下:#!/usr/bin/python3#-*- coding: utf-8 -*-import urllib.requestimport re#浏览器伪装池,将爬虫伪装成浏览器,避免被网站屏蔽headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) Appl...原创 2018-11-14 20:21:44 · 209 阅读 · 0 评论 -
【Python爬虫实战】查找企业股东有哪些关联公司
【实验目的】分析企业法人还有哪些关联公司,关联公司注册了哪些域名,这些域名是在哪个云平台注册的。【思路】1、对比测试,在不登陆的情况下,“企查查”比“天眼查”能查看到更多的信息。查询企业法人的关联公司,选择用网站“企查查”。本文主要分析这个环节。2、通过企业名,在“企查查”上获取法人的关联公司。然后用所有的关联公司在“站长之家”上查询他们的域名和所使用的云平台。此环节参考:https:/...原创 2018-11-11 00:27:08 · 5859 阅读 · 2 评论 -
【Python爬虫实战】查找企业的网站系统部署在哪些云平台上
【实验目的】查询某家企业的有哪些域名,分别是在哪个云平台上注册的,间接分析出该企业的IT信息化系统是和哪个云平台在合作。有了这些信息后,就可以进行市场洞察和针对性选择客户群体了。【爬虫思路】1、通过站长之间的工具"注册人反查"http://whois.chinaz.com/reverse?ddlSearchMode=2,找到该公司名注册了哪些域名,分别是在哪里注册的。2、通过爬虫程...原创 2018-11-10 20:23:22 · 1240 阅读 · 0 评论 -
【Python学习笔记4】使用Fiddler进行网络抓包
Fiddler介绍Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。下载地址https://pc.qq.com/detail/10/detail_333...原创 2018-10-30 23:47:52 · 602 阅读 · 0 评论 -
【Python爬虫实战】获取2018年重庆智博会参会企业名单,用于市场洞察
【背景】做市场洞察,经常需要分析某个行业的Top客户,通常会通过某种活动或某种机构获取名单。网站上也能收集到,但是手工收集比较麻烦。下面通过Python网络爬虫 获取2018年重庆智博会参会企业的名单来体验,如何批量获取目标网页的名单。【操作步骤】1、分析网页的地址结构重庆智博会官网-展览-展商名册,第一页如下:首先分析网址:总计27页,每页最多20个企业第1页...原创 2018-10-30 12:17:45 · 1810 阅读 · 0 评论 -
【Python学习笔记3】体验第三方库“requests”和“lxml”,简化网页读取和字段匹配的代码
【介绍】requests:requests 是用Python语言编写,基于自带库urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便lxml:XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。对应插件名为lxml 【安装】在命令行分别执行如下命令python...原创 2018-10-30 00:05:44 · 1183 阅读 · 0 评论 -
【Python学习笔记2】Python网络爬虫的异常处理
本文信息主要来源于韦玮老师的《精通python网络爬虫》,仅作为个人学习笔记。通过python库函数urllib.request去爬取网页时,遇到的异常主要时URL类和网页类的错误,python已提供URLError类和HTTPError类来处理。【URLError】可能原因:1、链接不上服务器;2、远程URL不存在;3、无网络【HTTPError】可能原因,可通过状态码分类:...原创 2018-10-28 23:22:35 · 518 阅读 · 0 评论 -
【python爬虫实战】python3.7+selenium3.7 登录天眼查网站查询企业的公开信息
【xpath使用详解】http://www.cnblogs.com/VseYoung/p/8686383.html通过xpath 父子节点、兄弟节点反查目标节点的方式来定位标签,使得python代码可读性和可维护性,大大增强。【分析过程】待补充 【实验结果】 【代码如下】#!/usr/bin/python3# -*- coding: utf-8 ...原创 2018-12-04 00:24:02 · 1670 阅读 · 0 评论