杰奇python采集器_【教程】【含PC和WAP源码主题】杰奇1.7+关关采集器+基于Linux小说网站+Win端Samba远程采集+可用采集规则...

这篇文章,包含了个人小说站建立的全部详细过程,避免了目前大多数的弯路,不需要掌握编程,小白也可以使用,如果有兴趣打造一个个人小说站,可以参照这个教程来完整,因为所有相关的源码,规则,程序,都包含在此,不需要去其他地方再找,另外博主的这些源码也是搜集而来,不保证绝对的安全性,但保证可以正常使用,请注意甄别。

注意红色打码部分是你要填入参数的部分

准备工作:

大硬盘的linux系统的网站服务器(建议debian8)

系统为win的采集服务器N个(可以为一个)

网站的域名

服务器选择的一些建议:

因为需要用到多台服务器,所以最实惠方案可能就是选择国外服务器,网站最好选择美西的服务器,一方面是因为价格,另一方面是美西有大量类似小说站,如果以他们为采集对象,可以保证更快的速度,至于推荐商家,我后期会补上,因为大硬盘VPS很容易脱销。

至于采集服务器,个人建议使用Vutlr,因为走邀请注册,可以获得额外的25美元奖励,可以用来开多台机器,进行同时采集,保证速度同时,又能减少开销,正常情况下,4台机器一起远程采集5个可用规则,一天可以采集1500-3000本书,内容的大小大概是12-20G。

还有很重要的一点,采集服务器一定要离网站服务器近,ping值最好能在2ms以下。

一些商家推荐:

网站服务器搭建:

1.Linux服务器安装Lamp运行环境

这里要注意下,php选5.2,apache选2.4,其他的选默认推荐的即可

2.在Liunx服务器上添加PC端和移动端域名,并解析域名

分两次添加,先PC域名,记得建立数据库,然后再添加移动域名,一般都是m.你的域名.com这样的格式

然后在域名供应商那边设置域名的解析

3.网站源码上传至服务器,并配置目录的权限

使用Winscp分别把PC和WAP源码的与压缩包上传到相应根目录并解压,然后修改目录权限

注意:PC.zip解压到你的域名.com目录下,WAP.zip解压到m.你的域名.com下

相关命令示例:

解压 unzip PC.zip

修改权限 chmod -R 777 /home/wwwroot

修改所有者 chown -R www /home/wwwroot

4.配置好站目录下的关键文件

然后按源码中的说明配置好网站的配置文件,以下是配置文件休要修改的地方,已用红色打码标注,如果看不懂数据意思,结合注释修或者在本文章留言咨询

PC网站目录下的/configs/define.php:

WAP目录下的(乱码的话注意改下编码):

5.进入网站后台进项相关配置

解析生效后,直接输入你的网址,就能访问网站了,这里我们直接在网址后输入/admin,然后进入后台(用户名admin,密码admin2017)。

修改的内容只要是之前设置过的一些参数,以及网站相关的信息,这里用截图简单标识一下:

然后执行命令清空自带的小说数据:

TRUNCATE TABLE `jieqi_article_article`;

TRUNCATE TABLE `jieqi_article_chapter`;

6.安装Samba,并完善配置

执行命令,安装Samba:

apt-get install samba samba-common-bin

然后使用WinScp,找到目录/etc/samba/smb.conf,编辑这个配置文件并保存:

位于Share Definitions下的部分

[jieqi]

comment = jieqi(尽量用这个名字,便于后边参考教程)

path =  /home/wwwroot/xxxxx.com(这里填你要共享的目录,共享整个PC网站目录)

valid users = root

public = no

writable = yes

printable = no

dos charset = GB2312

unix charset = GB2312

directory mask = 0777

force directory mode = 0777

directory security mask = 0777

force directory security mode = 0777

create mask = 0777

force create mode = 0777

security mask = 0777

force security mode = 0777

然后重启Samba服务:

/etc/init.d/samba restart

然后添加Samba用户:

smbpasswd -a root

之后按提示输入密码。

7.开放IPtable的相关端口

先查看端口情况,如果3306端口被DROP掉,需要放开这个端口,序号部分替换成要删除的序号

首先查看端口规则情况

iptables -L -n --line-numbers

比如要删除INPUT里序号为6的DROP规则(如果有带DROP的规则,没有则跳过),执行:

iptables -D INPUT 6

然后添加下列规则:

iptables -A INPUT -p tcp --dport 3306 -j ACCEPT

iptables -A INPUT -p tcp --dport 139 -j ACCEPT

iptables -A INPUT -p tcp --dport 445 -j ACCEPT

iptables -A INPUT -p udp --dport 137 -j ACCEPT

iptables -A INPUT -p udp --dport 138 -j ACCEPT

8.给予MySQL的root用户远程权限

首先登录mysql账户(会提示输root用户密码):

mysql -u root -p

然后给root用户开启远程权限(密码替换成root用户的密码):

use mysql;

GRANT ALL ON *.* TO root@'%' IDENTIFIED BY 'password' WITH GRANT OPTION;

flush privileges;

然后Ctrl+C退出即可

9.优化部分MySQL的设置

使用Winscp,找到/etc/my.cnf,参考下图修改:

然后重启lnmp服务:

lnmp restart

10.开放Apache跨目录权限

使用Winscp,找到/usr/local/apache/conf/vhost目录,分别将目下两个域名相关的文件中这一行代码注释掉(前面加#):

php_admin_value open_basedir "/home/wwwroot/xxxxx.com:/tmp/:/var/tmp/:/proc/"

然后重启lnmp服务:

lnmp restart

采集服务器搭建:

1.将服务器安装win系统并远程连接

如果不会,可参照这个文章

2.将关关采集器和加速工具上传至服务器

直接复制,然后在服务器上粘贴即可,然后解压,再运行ServerSpeeder文件下的serverSpeeder.bat,来优化网络的稳定性

3.连接samba服务器,并映射成硬盘

在服务器上打开开始–所有程序–附件–运行,输入地址然后回车

\\网站服务器的IP

这里会弹出登入窗口,填你之前设置的Samba的用户名(root)和密码

然后能看到名为jieqi的文件夹,确认能正常打开这个文件夹,然后右键将jieqi文件夹映射网络驱动器为E盘。

注意:若始终无法连接,可能是服务商仅用了Samba端口的使用权,可以通过发工单开通

4.配置关关的系统系统设置

然后打开GuanGuan5.6文件夹下的NovelSpider.exe,打开设置–系统设置,修改指定部分:

Data Source是你的网站服务器IP,Database是网站数据库名,User ID填root,Password是对应用户的密码

修改完后,一定要点确定,再完全关闭采集程序,然后再次打开程序,打开采集–标准采集,选择好采集规则和采集方式,然后开始采集:

这就是正常采集的界面

可以选择同时开启多个采集窗口采集,但是同一台采集服务器对同一个规则的采集窗口最好不要超过两个。

建议使用按目标站序号进行采集,可以更好的给各台服务器划定采集范围,比如A服务器采集0-2000,B服务器采集2001-4000,以此类推,也便于报错时候查证。

其他的采集服务器也按照以上配置即可。

开始采集:

我提供的采集器里面,附带了五个规则,虽然都能用,但是质量有好有坏,个人使用下来,笔趣阁和新笔趣阁以及八一中文的速度最快,最稳定,但是八一中文的广告较多,新笔趣阁的源站不稳定,容易出现采集空章节情况,具体情况请自行体验。

问题汇总:

这里总结了我过程钟遇到的一些问题,可以供参考下

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值