python
徐代龙
这个作者很懒,什么都没留下…
展开
-
python入门基础笔记
新想法: 送矿泉水---送货applinux操作系统 bin sbin 可执行程序 home 目录 temp 临时生成的目录根目录: /用户目录: 用户工作目录或家目录 /home/user相对路径: 上一层路径(父目录) 。。 当前路径 。 根目录 。。和。 都是代表根目录文件的权限:r --readw --原创 2017-05-23 23:22:32 · 692 阅读 · 0 评论 -
python scrapy之爬取 zhengfu网站
#encoding=utf8import scrapyfrom govinfos.items import GovinfosItemclass GovInfos(scrapy.Spider): # 启动爬虫的名称 name = 'govinfo' # 爬虫的范围 allowed_domains=['xzqh.mca.gov.cn'] # 爬虫的第一个url原创 2017-08-04 08:27:31 · 767 阅读 · 0 评论 -
python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
总结:虽然是第二次爬取,但是多多少少还是遇到一些坑,总的结果还是好的,scrapy比多线程多进程强多了啊,中途没有一次被中断过。 此版本是盘多多爬取数据的scrapy版本,涉及数据量较大,到现在已经是近500万的数据了。1,抓取的内容主要爬取了:文件名,文件链接,文件类型,文件大小,文件浏览量,文件收录时间一,scrapy中item.py代码# -*- coding: utf-8 -*-# D原创 2017-07-20 20:59:10 · 5123 阅读 · 3 评论 -
python3 [爬虫入门实战]爬虫之scrapy爬取织梦者网站并存mongoDB
主要爬取了编程栏目里的其他编程里的36638条数据 过程是自己一步一步的往下写的,有不懂的也是一边找笔记,一边百度,一边调试。 遗憾:没有进行多栏目数据的爬取,只爬了一个栏目的数据,希望有想法的有钻研精神的可以自己去尝试爬取一下,难度应该不会很大。给一张效果图: 爬取字段:标题,标题链接,标题描述,发布时间,发布类型,发布tag爬取方式:主要是获取div【pull-left ltxt原创 2017-07-16 22:52:35 · 891 阅读 · 0 评论 -
python3 [入门基础实战] 爬虫入门之刷博客浏览量
爬取结果 代码很简单:# encoding=utf8import requestsimport reimport timefrom bs4 import BeautifulSoupfirstUrl = 'http://blog.csdn.net/snake_son/article/details/52282490'headers = { 'User-Agent': 'Mozill原创 2017-06-27 23:45:59 · 2132 阅读 · 4 评论 -
python3 [入门基础实战] 爬虫入门之爬取豆瓣阅读中文电子书[热门排序]
稍微总结一下: 今天爬的稍微有点打击士气了,但是还是学到了不少东西,告诉我们,要学会自己去百度,谷歌答案, 自己去思考,不要依赖一些技术交流QQ群,很多都是水群的, 真的帮助你的是很少的。 重点在这里:今天学了将爬取的数据存取到txt ,.xlsx文件,也就是txt文件跟excel 表格中,又一次加强了re模块的正则表达式,先贴结果图: 这次爬取的是 贴代码:我是比较习惯先贴上代原创 2017-06-25 22:52:24 · 1591 阅读 · 0 评论 -
python3 [入门基础实战] 爬虫入门之爬取豆瓣读书随笔页面
话不多说,先上今晚的代码# encoding=utf8import requestsimport refrom bs4 import BeautifulSoup# 此处是爬去豆瓣读书的随笔页面# page=0# doubarurl = 'https://book.douban.com/tag/%E9%9A%8F%E7%AC%94?start='+str(page)+'&type=T'hea原创 2017-06-24 00:21:57 · 1725 阅读 · 0 评论 -
python3 [入门基础实战] 爬虫之四季花果园的采果模块
这是本人第一次进行根据自己的项目进行爬取,因为处于爬虫初步阶段,现在只是爬取的是一个主标题,和一个副标题,并存入txt文件中,存的数据有些重复的。暂且先这样,来勉励自己吧。#encoding=utf8import requestsimport refrom bs4 import BeautifulSoupimport osdef getSijiHuaGuo(huaguo_url):原创 2017-06-23 00:03:43 · 548 阅读 · 0 评论 -
python3 [入门基础实战] 爬虫入门之爬取糗事百科
#encoding=utf8import requestsfrom lxml import etreeclass QiuShi(object): headers = { "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.274原创 2017-05-24 23:43:49 · 676 阅读 · 0 评论 -
python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
先来张爬取结果的截图再来份代码吧# encoding=utf8import requestsimport refrom bs4 import BeautifulSoupfrom tkinter import scrolledtext # 导入滚动文本框的模块from tkinter import ttkimport tkinter as tkimport threading# 获取网页原创 2017-06-24 23:59:32 · 6814 阅读 · 1 评论 -
python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
请转移新博客地址: http://blog.csdn.net/xudailong_blog 老实说:懵逼啊 这次爬取的是智联招聘上的求职数据,虽然没有仔细正确核对一下数据是否具有重复性,随机抽查了些,数据大部分还是能对上来的,这次爬取的智联招聘上的数据90页,每页60条,主要抓取的是android开发工程的数据, 抓取的数据为全国的数据,先上张结果图吧,如果是想看大图,可以选中图片,长原创 2017-07-02 00:25:52 · 2957 阅读 · 0 评论 -
python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化
1 mongodb数据库的安装与配置2 mongodb可视化工作3 mongodb在python3中的简单应用原创 2017-07-05 18:47:53 · 1967 阅读 · 0 评论 -
python 百度贴吧
#encoding=utf8from bs4 import BeautifulSoupimport requestsimport timeimport randomimport xlwtflag = ''getin = ''c= 0def detailOper(url, params, header, timeout = 10): global flag out =原创 2017-06-20 23:32:21 · 1567 阅读 · 0 评论 -
python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
这次爬取的确实有些坎坷,经过了两个晚上吧,最后一个晚上还是爬取数据到最后一公里了,突然报错了。又得继续重新进行爬取先来个爬取结果图,这次爬取的是标题,url,还有日期,估计也就只有这么多内容,用的单线程, 爬取结果: 爬取的过程很蛋疼,最后是昨天晚上爬取出来的,下次争取不用单线程进行任务了。先来份代码:# -*- coding: UTF-8 -*-import threading #原创 2017-06-29 23:46:00 · 2618 阅读 · 1 评论 -
python3 [入门基础实战] 爬虫入门之xpath的学习
Xpath Xpath全程为xml路径语言,用来确定xml文档中某部分位置的语言。 使用Xpath需要安装lxml库,lxml为Python的第三方库,安装方法可以直接下载库文件手动添加到python库文件夹下或者使用pip安装。 导入模块 from lxml import etree Selector=etree.HTML(网页源代码) 该指令可以把网页源代码转换成可以 被Xpath识别原创 2017-06-28 23:49:42 · 1837 阅读 · 0 评论 -
python3[爬虫实战] 使用selenium,xpath爬取京东手机(下)
这次主要是进行京东具体某个店铺手机评论内容的爬取。本来是跟上一起写的,只是没有时间一块做总结,现在写上来是有点生疏了。这里是暂时获取一个商品的评论内容爬取的字段:评论内容,购买机型,评论人上代码:# -*- coding: utf-8 -*-# @Time : 2017/9/18 23:16# @Author : 蛇崽# @Email : 17193337679@163.com#原创 2017-10-11 23:01:36 · 932 阅读 · 0 评论