python之多方面应用
文章平均质量分 82
介绍python在与前端,后端,爬虫,以及利用python的各种库进行数据分析,以及人工智能方面的介绍
半吊子Py全栈工程师
失败的人只有一种,就是在成功之前放弃的人。
展开
-
使用selenium爬取淘宝店铺信息
使用selenium +PhantomJS()/Chrome爬取 淘宝页面,存储到mongdb中使用config进行一些设置MONGO_URL = 'localhost'MONGO_DB = 'taobao'MONGO_TABLE = 'product'# 将图片设定为不下载SERVICE_ARGS = ['--load-images=false', '--disk-cache=true']# 搜...原创 2018-03-08 21:45:19 · 4616 阅读 · 3 评论 -
使用scrapy框架简单快速爬取淘宝商品信息
爬取淘宝商品信息,昨天利用selenium和PhantomJS爬取了淘宝页面,但是速度方面有些欠缺,所以今天简单的利用scrapy框架来实现同样功能,并同样保存到mongo数据库中import scrapyimport reimport pymongofrom taobao.items import TaobaoItemclass WeisuenSpider(scrapy.Spider): ...原创 2018-03-09 19:19:54 · 6277 阅读 · 3 评论 -
爬取拉勾网
简单快速爬取拉勾网,我们需要在爬取json文件,需要发送POST请求,但是需要先发送一次GET请求,不然会返回错误信息,爬取间隔尽量设置长一点,有多个ip随意。。。# -*- coding: utf-8 -*-import scrapyimport timeimport reimport jsonfrom wde32.items import Wde32Item# 必须先发一次GET请求,在发一次...原创 2018-03-10 22:08:51 · 3791 阅读 · 3 评论 -
爬内涵段子,开心一刻
使用py2爬取笑话,~~# coding=utf-8import urllib2import reclass Pacong(object): def __init__(self,begin=1): self.begin = begin self.confirm = True self.filename = 1 def get_html(self...原创 2018-03-12 20:52:07 · 3220 阅读 · 0 评论 -
快速简单爬取携程酒店信息简介
先查看网站发送信息格式,发现可以通过ajax来拿取信息,还没有ip访问限制。然后顺便爬了杭州5000家酒店信息import scrapyimport timeimport jsonfrom xiechen.items import XiechenItemclass XiecSpider(scrapy.Spider): name = 'xiec' allowed_domains = ['...原创 2018-03-14 22:02:15 · 4323 阅读 · 1 评论 -
爬取微博用户个人简介等信息
import jsonfrom scrapy import Spider, Requestfrom weibouser.items import WeibouserItemclass WeiboSpider(Spider): name = 'weibo' allowed_domains = ['weibo.cn'] def start_requests(self): ...原创 2018-03-16 22:24:00 · 5230 阅读 · 1 评论 -
递归爬取微博所有用户信息
控制爬取速度0.5间隔和32并行# -*- coding: utf-8 -*-import jsonfrom scrapy import Spider, Requestfrom weibouser.items import WeibouserItemclass WeiboSpider(Spider): name = 'weibo2' allowed_domains = ['weibo....原创 2018-03-17 21:31:37 · 5179 阅读 · 0 评论 -
使用selenium爬取某出试卷的网站
from selenium import webdriverimport pymongoimport jsonimport timeimport re# 使用终极武器了.# 修改头文件,防止被识别为爬虫from selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesclass Zujuan(object):...原创 2018-03-20 19:33:58 · 8214 阅读 · 0 评论 -
爬取彩票相关信息
简单说一下,我找的一个网站是kaijiang.500.com/ 下的双色球,数据是从03年第一期一直到现在都有,虽然每次都只能网页上拿一期的数据,但是反爬虫措施不强,可以很快就爬完。 我是利用了MongoDB和scrapy,这个轮子对初学者还好吧,但是用时间长了也会发现很多不足,然后就可以考虑自己造轮子了。如果是直接使用request写,更简单~具体代码如下:# -*...原创 2018-03-24 18:41:45 · 3371 阅读 · 0 评论 -
使用selenium爬取百合网
今天在公司又听同事说到相亲的事,然后想爬取上海的用户信息看看,先查看了一下电脑版的百合网,发现必须要登录,数据一次性只能拿取6-8条,然后在查看手机端,也是必须要登录,数据通过拿取json文件,可以一次性GET方式拿取100条,还可以通过设置参数,设置筛选条件,所以决定使用手机端来爬 先用scrapy简单的尝试,发现数据和自己设置的条件是不一样的,检测过后,发现是假数...原创 2018-03-26 17:23:38 · 7491 阅读 · 0 评论 -
使用requests爬取IT橘子
今天看了下IT橘子,想下载一些数据,但是接口已经关闭,所以就自己写了一个爬虫在写的过程中发现以下几点,1.想要拿到数据,必须要登陆2.使用头文件时,浏览器千万不要写linux,最好就写windows,因为它会直接ban掉linux的浏览器3.反爬虫很强,使用Cookie,可以使用的时间很短4,有代理池或多个账号就加上吧,我这里就没有使用了,直接使用了不定时的延时(不要设定一个固定的延时,会ban)...原创 2018-03-29 22:06:40 · 7561 阅读 · 0 评论 -
使用搜狗接口爬取微信公众号
这里使用搜狗接口来爬取微信公众号,使用的代理池是以前使用redis和flask一起来维护的,在网上爬取的免费代理(想要详细了解的可以到前面文章了解)主文件代码如下,尽量写了备注from urllib.parse import urlencodeimport pymongoimport requestsfrom lxml.etree import XMLSyntaxErrorfrom request...原创 2018-03-30 22:29:26 · 12642 阅读 · 0 评论 -
简单使用resquests爬取雪球网数据,分析股票走势
简单使用resquests爬取雪球网数据,分析股票走势import requestsimport pymongoimport json# 数据库初始化client = pymongo.MongoClient("localhost", 27017)# 获得数据库db = client.gupiao# 获得集合stu = db.lushenheaders = {"Accept" : "applicat...原创 2018-04-01 22:21:30 · 7035 阅读 · 4 评论