关闭

脚本:获取CSDN文章的访问量

目标 获取所有文章名,链接,阅读人数,评论数 以适合pandas读取的格式存储之 分析页面跳转首页:http://blog.csdn.net/fontthrone?viewmode=list 第二页:http://blog.csdn.net/FontThrone/article/list/2 三四页以此类推 根据第二三四页的格式尝试http://blog.csdn.net/FontThrone...
阅读(187) 评论(0)

快速提高CSDN访问量 - 附脚本初代机

快速提高CSDN访问量的方法 多写常用知识点的博客,想办法提高百度排名,注意标题不要写的太复杂 写国内比较新的技术,中短期奇效,效果很好 成系列的写技术文章,有利于增加评论,粉丝,中长期能够大幅度提高日常访问量 成系列的专栏,利于增加粉丝,亦能提高日常访问量,同上 想办法让文章推荐到首页,可在短时间内增加访问量, 大招:脚本,有一个已经写好了的脚本在最后,但是不建议 大招二,水军,还可以获得很多评论...
阅读(16086) 评论(0)

Python3 根据关键字爬取百度图片

介绍 一个可用好用的百度图片爬取脚本,唯一的不足就是这是单线程的 运行环境 Python3.6.0 写该脚本的原因:获取图片 创作过程有参考 源码# coding:utf-8 import requests import os import re # import json import itertools import urllib import sys# 百度图片URL解码 # http://...
阅读(15775) 评论(0)

盘点selenium phantomJS使用的坑

转载自简书 说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能。等见识了requests库的威力后,便放弃urllib库,并且也不打算回去了。但对一些动态加载的网站,经常要先分析请求,再用requests模拟,比较麻烦。直到遇到了selenium库,才发现爬动态网页也可以这么简单,果断入坑! selenium是python的一个第三方自动化测试库,虽然是...
阅读(1499) 评论(0)

Python2 Python3 爬取赶集网租房信息,带源码分析

*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是一个总结.* python2 爬取赶集网租房信息与网站分析 分析目标网站url 寻找目标标签 获取,并写入csv文件 #-*- coding: utf-8 -*- from bs4 import Bea...
阅读(1687) 评论(2)

BeautifulSoup 一行代码获取今日日期,与smtplib结合

在中有一节为通过网络获取今天是不是圣诞节,但是我今天写的时候那个网站登录奇慢,本着求人不如求己,能国内绝不国外的原则,我决定还是自己找个网站爬取日期.比如 再简单的看了看该网站的代码之后,我最终选择了获取黄色荧光笔标出的那个a标签内容 当然,你也可以获取图中的整个日历内容(蓝色圈部分),通过这种方式,你讲拥有一个完整的”在线日期库”简单的东西还是直接代码:from urllib.reques...
阅读(464) 评论(0)

Python3 pymysql连接mysql数据库 windows

pymsql是一个不错的连接mysql的Python类库 我比较喜欢把知识点注释在我的code里,直接上代码吧,不需要要多解释说明.import pymysql# unix_socket='/tmp/mysql.sock' 在ubantu下 # conn = pymysql.connect(host='127.0.0.1',unix_socket='/tmp/mysql.sock',user='r...
阅读(1525) 评论(0)

urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案

在使用python爬取网络爬虫时,经常会以为目标网站因为禁止爬取网络爬虫而出现403 Forbidden的错误问:为什么会出现403 Forbidden的错误 答:出现urllib2.HTTPError: HTTP Error 403: Forbidden错误的原因主要是由于目标网站禁止爬虫导致的,可以在请求加上请求头信息.问:那么应该如何解决呢? 答:只要模拟正常浏览器上网即可,比如添加一个h...
阅读(1360) 评论(0)

BeautifulSoup([your markup]) to this: BeautifulSoup([your markup], "lxml") 解决未设置默认解析器的错误

在看时,敲了一些代码,其中报了一个错误为 BeautifulSoup([your markup]) to this: BeautifulSoup([your markup], “lxml”)` html = urlopen(“http://en.wikipedia.org“+articleUrl) bsObj = BeautifulSoup(html)`将代码中的 bsObj...
阅读(1272) 评论(0)
    个人资料
    • 访问:252982次
    • 积分:3064
    • 等级:
    • 排名:第11855名
    • 原创:93篇
    • 转载:20篇
    • 译文:2篇
    • 评论:35条
    博客专栏
    最新评论