爬虫
文章平均质量分 93
YiFoEr_Liu
大数据分析工程师,希望发布的东西大家能够用到
展开
-
python爬虫入门之————————————————第一节--了解爬虫
1.爬虫入门概述爬虫,又被称为网络爬虫,主要指代从互联网上进行数据采集的脚本后者程序,是进行数据 分析和数据挖掘的基础。 所谓爬虫就是指在给定url(网址)中获取我们对我们有用的数据信息,通过代码实现数据的大量获取,在经过后期的数据整理、计算等得出相关规律,以及行业趋势等信息。通常我们说的爬虫2.爬虫分类按照使用情况,主要分为两大类型:通用爬虫和聚焦爬虫 按照采集数据的过程进...原创 2018-11-25 18:12:30 · 2479 阅读 · 6 评论 -
python爬虫入门之————————————————第二节--使用xpath语法获取数据
准备工作⚫了解爬虫的数据处理体系结构⚫ 处理数据的软件准备 采集到的结构化数据[如 html 网页文档数据] python 开发环境 lxml 第三方库 结构化数据基本理论:DOM 模型 1结构化数据具备有一定的结构,有预定义规则的数据模型,统称为结构化数据 如:数据进行格式化展示的 HTML 文档中的数据、数据进行格式化传输的 XML 文档中的数据、数据进行格式化整理的 Exce...原创 2018-11-25 18:38:12 · 2421 阅读 · 0 评论 -
python爬虫入门之————————————————第三节requests详解
1.下载安装(1)命令安装方式Windows:打开命令窗口行,直接运行包管理命令安装 pip install requests or essy_install requests(简易版) unix/linux:打开 shell 窗口,运行包管理命令安装 pip install requests (2)离线安装 下载离...原创 2018-11-28 22:18:11 · 575 阅读 · 0 评论 -
python爬虫入门之————————————————案例演练
目标url https://www.qiushibaike.com/8hr/page/数据持久化源代码:"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2018-11-22 21:57DESC sqlalchemy存储"""from sqlalchemy import Column, String, cre...原创 2018-11-28 22:36:53 · 379 阅读 · 0 评论 -
python爬虫入门之————————————————案例演练
源码"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2018-11-25 18:39DESC 电影天堂"""# https://www.dy2018.com/from urllib import requestimport timefrom lxml import htmlfrom fake_userage...原创 2018-11-28 22:42:28 · 408 阅读 · 0 评论 -
python下使用scrapy-redis模块分布式爬虫的爬虫项目部署详细教程————————gerapy
1.使用gerapy进行分布式爬虫管理准备工作:首先将你使用scrapy-redis写的分布式爬虫全部完善模块准备:安装:pip install pymongo【依赖模块】pip install gerapy 2.在本地创建部署项目的文件夹2.1例如如图在本地创建workgreapy文件夹2.2进入该文件夹2.3输入cmd 回车2.4在命令...原创 2018-12-04 22:54:40 · 747 阅读 · 0 评论 -
python爬虫入门之————————————————第四节--使用bs4语法获取数据
1.装备工作:模块安装1.1命令安装方式:(开发环境:python3.6环境)官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.html官方文档中文版:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ pip install be...原创 2018-12-01 19:49:42 · 875 阅读 · 0 评论 -
爬虫入门之验证码的处理--------------------------pytesseract库的使用
前言 目前有许多网站针对爬虫采取了多种多样的措施进行反爬虫,为了不降低用户的体验度同时还能将爬虫拦截在网站之外的一个简单的措施就是验证码。随着技术的发展,验证码的种类也越来越多了,图形拼接、数字组合、简单的数学问题、点击图中的文字等等以及在文字渲染的同时加入干扰线条来增大爬取信息的难度。验证码也随之变得越来越复杂了,爬虫工作也变得越来越有挑战性了。1.1 图形验证码的识别在...原创 2018-12-11 14:29:37 · 417 阅读 · 0 评论 -
利用微信小程序作为爬虫的目标URL进行全国手机号段归属地的数据采集
"""Version 1.1.0Author lkkEmail lkk199404@163.comdate 2019/2/14 11:09Desc TODO"""import requestsimport jsonimport timeimport toolsssurl = 'https://www.qqzeng-ip.com/api/phone'headers = ...原创 2019-02-21 15:46:36 · 822 阅读 · 2 评论