关闭

Python 脚本帮你找出微信上删除了你的“好友“

一、普遍验证办法        群发消息应该算是微信上流传最广的找到删除好友的方法了。但群发消息不仅仅会把通讯录里面所有的好友骚扰一遍,而且你还得挨个删除好几百个聊天记录,回复大家的疑问和鄙视。作为一个互联网从业者,除了群发消息就不能有更高效、不打扰好友的方式么? 二、写个脚本验证一下 # coding=utf-8 from __future__ import print_funct...
阅读(26) 评论(0)

Python爬虫项目

WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。   DouBanSpider [2]– 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到...
阅读(30) 评论(0)

通过爬虫迁移CSDN博客

最早是在CSDN上写博客的,可是渐渐发现CSDN写博客有诸多限制,而且CSDN博客时不时会挂掉,因此后面用Hexo在github上搭了一个新博客,也就是现在这个。然而这样一来很多文章就留在CSDN上,而在新博客上找不到了。 因此前几天用Java写了一个爬虫,把CSDN上的博客内容爬了下来,并解析成markdown格式存储在本地,这样就可以方便的迁移到新的博客了 CSDN博客迁移,把CSDN...
阅读(50) 评论(0)

Scrapy抓取天气数据和显示

一、item编写   import scrapy class GzweatherItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # title = scrapy.Field() date = scrapy.Field() ma...
阅读(62) 评论(0)

python获取自己发的说说内容

一、模拟登陆 import re from selenium import webdriver from time import sleep from PIL import Image #定义QQ空间登录函数 def QR_login(): def getGTK(cookie): """ 根据cookie得到GTK """ hashes = 5381...
阅读(99) 评论(0)

获取qq好友发的说说

一、Selenium简介 Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。 由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。 Selenium自己不带浏览器,需要配合第三方浏览器来使用。支持的浏览器有Chrome、...
阅读(82) 评论(0)

Python 爬虫:把廖雪峰的教程转换成 PDF 电子书

Python 爬虫:把廖雪峰的教程转换成 PDF 电子书系统要求python3.4以上版本, 不支持python2.x准备工具requests、beautifulsoup 是爬虫两大神器,reuqests 用于网络请求,beautifusoup 用于操作 html 数据。有了这两把梭子,干起活来利索。scrapy 这样的爬虫框架我们就不用了,这样的小程序派上它有点杀鸡用牛刀的意思。此外,既然是把 h...
阅读(216) 评论(0)

利用Scrapy框架爬取博客信息并存到mysql数据库

一、所需要的库           (1)Scrapy           (2)pymysql 二、 创建数据库和表    Create database hexun; Use hexun; Create table myhexun(id int(10) auto_increment primary key not null,name varchar(30),url...
阅读(93) 评论(0)

python爬取新浪新闻存储到excel

一、运行环境 (1) BeautifulSoup的导入:pip install BeautifulSoup4 (2) requests的导入:pip install requests (3) re的导入:pip install re (4) pandas的导入:pip install pandas 二、完整代码    # 获取新闻的标题,内容,时间和评论数 im...
阅读(116) 评论(0)

Scrapy框架利用CrawlSpider创建自动爬虫

一、适用条件    可以对有规律或者无规律的网站进行自动爬取  二、代码讲解   (1)创健scrapy项目 E:myweb>scrapy startproject mycwpjt New Scrapy project 'mycwpjt', using template directory 'd:\\python35\\lib\\site-packages\\s...
阅读(174) 评论(2)

编写自动爬取网页的爬虫

一、item的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class AutopjtItem(scr...
阅读(129) 评论(0)

获取斗鱼图片

一、总体思路 从网页代码里获得你要图片。这里我们需要简单的分析一下该网页。 当我们把鼠标移到地址上的时候就会出现该图片,这个就是我们要爬取的图片。 这个图片是在 data-original 后面,我们就需要进行匹配,通过正则表达式很快就可以达到目的。 网页代码片段 1 img data-original="https://rpic.do...
阅读(110) 评论(0)

学习Scrapy框架

一、Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
阅读(84) 评论(0)

爬取今日头条上的图片

一、动态页面逆向分析爬取 (1)今日头条搜索界面如上: (2)页面分析获取Jason数据格式 http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&count=20&cur_tab=1 二、爬取完整代码块# coding=utf-8 import json import os imp...
阅读(118) 评论(0)

常见python爬虫框架

一、python爬虫框架    一些爬虫项目的半成品 二、常见python爬虫框架   (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。   (2)Crawle...
阅读(134) 评论(0)
24条 共2页1 2 下一页 尾页
    个人资料
    • 访问:104112次
    • 积分:4240
    • 等级:
    • 排名:第7239名
    • 原创:206篇
    • 转载:133篇
    • 译文:106篇
    • 评论:30条
    最新评论